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译 者 序 
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一 


前 言 


在 因特网 和 Web 走 向 成 熟 、 能 够 支持 多 种 分 布 式 系统 之 际 ， 本 书 的 第 4 版 问世 了 。 如 今 ， 分 布 
式 系统 的 规模 已 远 远 超过 了 本 书 第 3 版 出 版 时 的 预期 。 

本 书 旨 在 介绍 因特网 和 其 他 分 布 式 系统 所 蕴涵 的 原理 、 体 系 结构 、 算 法 和 设计 。 前 两 章 是 概 
念 上 的 简介 ， 概 括 分 布 式 系统 的 特征 和 必须 在 设计 中 解决 的 挑战 .可 伸缩 性 、 异 构 性 、 安 全 性 和 
故障 处 理 。 这 两 章 也 给 出 了 理解 进程 交互 、 故 障 和 安全 的 抽象 模型 。 后 续 儿 童 关 注 连 网 、 进 程 间 
通信 、 远 程 调用 和 中 间 件 、 操 作 系 统 和 命名 。 

接着 ， 我 们 论 及 一 些 比较 成 熟 的 主题 ， 包 括 安 全 、 数 据 复制 、 组 通信 、 分 布 式 文件 系统 、 分 
布 式 事务 、CORBA、 分 布 式 共享 内 存 和 多 媒体 系统 。 此 外 ， 还 会 讨论 一 些 新 的 主题 ，Web 服 务 、 
XML、 网 格 、 对 等 、 移 动 和 无 处 不 在 系统 。 与 这 些 主题 相关 的 算法 将 在 相关 主题 中 讨论 。 我 们 还 
将 另 辟 几 章 讨论 时 序 、 协 调和 协定 。 


目的 和 读者 群 

本 书 可 作为 本 科 生 教材 和 研究 生 的 入 门 教材 ， 也 可 作为 自学 教材 。 本 书 采用 自 顶 向 下 的 方法 ， 
首先 叙述 在 分 布 式 系统 设计 中 要 解决 的 问题 ， 然 后 ， 通 过 抽象 模型 、 算 法 和 对 广泛 使 用 的 系统 实 
例 进行 详细 研究 的 方式 ， 描 述 成 功 开发 系统 的 方法 。 本 书 覆 盖 的 领域 有 足够 的 宽度 和 广度 ， 使 得 
读者 在 读 完 本 书后 能 继续 研究 分 布 式 系统 文献 中 的 大 多 数 研究 论文 。 

本 书 希 望 读者 具有 面向 对 象 编程 、 操 作 系 统 以 及 基本 的 计算 机 体系 结构 知识 。 本 书 涵盖 与 分 
布 式 系统 有 关 的 计算 机 网 络 的 知识 ， 包 括 因特网 、 广 域 网 、 局 域 网 和 无 线 网 的 基本 技术 。 本 书 中 
的 大 部 分 算法 和 接口 用 Java 描 述 ， 有 一 小 部 分 用 ANSI C 描 述 。 为 了 表述 上 的 简洁 明了 ， 还 将 使 用 
一 种 从 Java/C 中 派生 出 来 的 伪 代 码 。 


本 书 的 组 织 


下 图 表明 本 书 的 各 章 可 划分 为 六 个 主题 。 它 说 明了 本 书 的 结构 ， 为 教师 、 读 者 提供 了 一 个 推 
荐 的 导航 路 径 ， 以 便于 他 们 理解 分 布 式 系 统 设计 中 的 不 同 子 领域 。 
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第 1 章 ”分布 式 系统 的 特征 


分 布 式 系 统 是 其 组 件 分 布 在 连 网 的 计算 机 上 ， 组 件 之 间 通 过 传递 消息 进行 通信 和 动作 协调 的 
系统 。 该 定义 导出 了 分 布 式 系统 的 下 列 特征 : 组 件 的 并 发 性 、 缺 乏 全 局 时 钟 、 组 件 故障 的 独立 性 。 

我 们 给 出 分 布 式 系统 的 三 个 例子 : 

* 因特网 。 

* 企业 内 部 网 ， 它 是 因特网 的 一 部 分 ， 一 般 由 一 个 机 构 负责 管理 。 

* 移动 计算 和 无 处 不 在 计算 。 

资源 共享 是 构造 分 布 式 系统 的 主要 动力 。 资 源 可 以 由 服务 器 管理 ， 由 客户 访问 ,或 它们 被 圭 
装 成 对 象 ， 由 其 他 客户 对 象 访问 。 作 为 一 个 资源 共享 的 例子 ， 我 们 将 讨论 Web 并 介绍 它 的 主要 特 
征 。 

构造 分 布 式 系统 的 挑战 是 处 理 其 组 件 的 异 构 性 、 开 放 性 (允许 增加 或 替换 组 件 )、 安 全 性 、 可 
伸缩 性 〈 用 户 数量 增加 时 能 正常 运行 的 能 力 ) 、 故 障 处 理 、 组 件 的 并 发 性 和 透明 性 问题 。 


1.1 简介 


计算 机 网 络 无 处 不 在 。 因 特 网 也 是 其 中 的 一 个 ， 因 为 它 是 由 许多 种 网 络 组 成 的 。 移 动 电 话 网 、 
协作 网 、 企 业 人 网 、 校 园 网 、 家 庭 网 、 车 内 网 ， 所 有 这 些 ， 既 可 单独 使 用 ， 又 可 相互 结合 ， 它 们 有 具 
有 相同 的 本 质 特征 ， 这 些 特 征 使 得 它们 可 以 放 在 分 布 式 系统 的 标题 下 来 研究 。 本 书 旨 在 解释 影响 
系统 设计 者 和 实现 者 的 连 网 的 计算 机 的 特征 ， 给 出 已 有 的 可 帮助 完成 设计 和 实现 分 布 式 系统 任务 
的 主要 概念 和 技术 。 

我 们 把 分 布 式 系统 定义 成 一 个 其 硬件 或 软件 组 件 分 布 在 连 网 的 计算 机 上 ， 组 件 之 间 通 过 传递 
消息 进行 通信 和 动作 协调 的 系统 。 这 个 简单 的 定义 覆盖 了 所 有 可 部 署 连 网 计算 机 的 系统 。 

由 一 个 网 络 连接 的 计算 机 可 能 在 空间 上 的 距离 不 等 。 它 们 可 能 分 布 在 地 球 上 不 同 的 洲 ， 也 可 
能 在 同一 栋 楼 或 同一 个 房间 里 。 分 布 式 系统 有 如 下 显著 特征 : 

并 发 : 在 一 个 计算 机 网 络 中 ， 执 行 并 发 程序 是 常见 的 行为 。 用 户 可 以 在 各 自 的 计算 机 上 工作 ， 
在 必要 时 共享 诸如 Web 页 面 或 文件 之 类 的 资源 。 系 统 处 理 共享 资源 的 能 力 会 随 着 网 络 资源 (例如 ， 
计算 机 ) 的 增加 而 提高 。 在 本 书 的 许多 地 方 将 描述 有 效 实施 这 种 额外 能 力 的 方法 。 对 共享 资源 的 
并 发 执行 的 程序 的 协调 也 是 一 个 重要 和 重复 提 及 的 主题 。 

缺乏 全 局 时 钟 ， 在 程序 需要 协作 时 ， 通 过 交换 消息 来 协调 它们 的 动作 。 密 切 的 协作 通常 取决 
王 对 程序 动作 发 生 的 时 间 的 共识 。 但 是 ， 事 实证 明 ， 网 络 上 的 计算 机 与 时 钟 同步 所 达到 的 准确 性 
是 有 限 的 ， 即 没有 一 个 正确 时 间 的 全 局 概念 。 这 是 由 于 通信 仅仅 是 通过 网 络 发 送 消息 这 个 事实 带 
来 的 直接 结果 。 定 时 间 题 和 它们 的 解决 方案 将 在 第 11 章 描述 。 

故障 独立 性 : 所 有 的 计算 机 系统 都 可 能 出 故障 ， 一 般 由 系统 设计 者 负责 为 可 能 的 故障 设计 结 
果 。 分 布 式 系统 可 能 以 新 的 方式 出 现 故 障 。 网 络 故障 导致 网 上 互 连 的 计算 机 的 隔离 ， 但 这 并 不 意 
味 着 它们 停止 运行 ， 事 实 上 ， 计 算 机 上 的 程序 不 能 够 检测 到 网 络 是 出 现 故 障 还 是 网 络 运行 得 比 通 
党 慢 。 类 似 的 ， 计 算 机 的 故障 或 系统 中 程序 的 异常 终止 (崩溃 ) ， 并 不 能 马上 被 与 它 通信 的 其 他 组 
件 感 知 。 系 统 的 每 个 组 件 会 单独 地 出 现 故 障 ， 而 其 他 组 件 还 在 运行 。 分 布 式 系统 的 这 个 特征 所 带 
来 的 后 果 将 是 本 书 的 一 个 反复 提 及 的 主题 。 

构造 和 使 用 分 布 式 系统 的 动力 来 源 于 对 共享 资源 的 期 望 。 “资源 ”一 词 是 相当 抽象 的 ， 但 它 很 





之 | 种 了 全 





[L2 好 地 描述 了 能 在 连 网 的 计算 机 系统 中 共享 的 事物 的 范围 。 它 涉及 的 范围 从 硬件 组 件 (如 硬盘 、 打 
印 机 ) 到 软件 定义 的 实体 (如 文件 、 数 据 库 和 所 有 的 数据 对 象 )。 它 包括 来 自 数字 摄像 机 的 视频 流 
和 移动 电话 呼叫 所 表示 的 音频 连接 。 
本 章 主要 论述 分 布 式 系统 的 本 质 ， 以 及 成 功 部 署 分 布 式 系统 所 面临 的 挑战 ，1.2 节 展示 了 分 布 
式 系统 的 一 些 重 要 的 例子 ， 以 及 构造 系统 所 需 的 组 件 和 这 些 组 件 的 作用 。1.3 节 描述 了 在 万 维 网 环 
境 中 资源 共享 系统 的 设计 。1.4 节 则 阐述 了 分 布 式 系统 设计 者 所 要 面 对 的 重要 挑战 : 异 构 性 、 开 放 
性 、 安 全 性 、 可 伸缩 性 、 故 障 处 理 、 并 发 性 和 对 透明 性 的 要 求 。 


1.2 分 布 式 系统 的 实例 


本 节选 用 的 实例 基于 大 家 熟悉 和 广泛 使 用 的 计算 机 网 络 ， 包 括 因 特 网 、 企 业内 部 网 和 新 兴 的 
基于 移动 设备 的 网 络 技术 。 我 们 举 这 些 例子 主要 是 说 明 由 计算 机 网 络 支持 的 服务 和 应 用 具有 很 广 
的 范围 ， 然 后 从 这 些 系统 开始 讨论 支持 系统 实现 的 技术 问题 。 


1.2.1 因特网 

因特网 是 一 个 巨大 的 由 多 种 类 型 计算 机 网 络 互 连 的 集合 。 图 1-1 摘 取 了 因特网 的 部 分 典型 组 成 。 
因特网 上 的 计算 机 程序 通过 传递 消息 进行 交互 ， 采 用 了 一 种 公共 的 通信 手段 。 因 特 网 通信 机 制 
(因特网 协议 ) 的 设计 和 构造 是 一 项 重大 的 技术 成 果 ， 它 使 得 一 个 在 某 处 运行 的 程序 能 给 另 一 个 地 
方 的 程序 发 送 消息 。 





图 1-1 因特网 的 典型 部 分 


因特网 也 是 一 个 非常 大 的 分 布 式 系统 。 它 使 得 世界 各 地 的 用 户 能 利用 诸如 万 维 网 、 电 子 邮 件 
和 文件 传送 等 服务 。( 有 时， 不 确切 地 说 ，Web 等 同 于 因特网 。) 服务 集 是 开放 的 ， 它 能 够 通过 服 
务 器 计算 机 和 新 的 服务 的 增加 而 被 扩展 。 图 1-1 还 展示 了 许多 企业 内 部 网 一 一 由 公司 和 其 他 组 织 操 
作 的 子 网 。 因 特 网 服务 提供 商 (ISP) 是 给 个 体 用 户 和 小 型 组 织 提供 调制 解 调 器 链接 和 其 他 类 型 连 
接 的 公司 ， 使 他 们 能 获得 因特网 上 的 服务 ， 同 时 提供 诸如 电子 邮件 和 Web 主 机 等 本 地 服务 。 企 业 
内 部 网 通过 主干 网 实现 互相 链接 。 主 干 网 是 具有 高 传送 能 力 的 网 络 链接 ， 通常 采 用 卫星 连接 、 光 
缆 和 其 他 高 宽带 线路 。 

因特网 能 够 提供 多 媒体 服务 ， 使 用 户 能 获得 包括 音乐 、 广 播 和 TV 频道 在 内 的 音频 和 视频 数据 ， 
并 召开 电话 和 视频 会 议 。 由 于 目前 因特网 没有 提供 为 单个 数据 流 预 留 网 络 容量 所 必需 的 设施 ， 因 
此 它 处 理 多 媒体 数据 这 类 特殊 通信 需求 的 能 力 还 很 有 限 。 第 17 章 将 讨论 分 布 式 多 媒体 系统 的 需求 。 

因特网 的 实现 和 它 支持 的 服务 已 经 解决 了 分 布 式 系统 的 许多 问题 (包括 在 1.4 节 中 定义 的 大 多 
数 问题 )。 本 书 将 着 重 曾 述 这 些 解决 方案 ， 并 在 适当 的 时 候 说 明 它们 的 适用 范围 和 局 限 性 。 


分 布 式 矢 统 的 适 寿 Es 





1.2.2 企业 内 部 网 


企业 内 部 网 是 因特网 的 一 部 分 ， 它 是 独立 管理 的 ， 具 有 一 个 可 被 配置 来 执行 本 地 安全 策略 的 
边界 。 图 1-2 给 出 了 一 个 典型 的 企业 内 部 网 。 它 由 几 个 通过 主干 网 连接 的 局 域 网 (LAN) 组 成 。 每 
个 企业 内 部 网 的 网 络 配置 都 由 管理 企业 内 部 网 的 组 织 负 责 ， 这 种 管理 的 范围 差异 很 广 ， 可 以 从 单 
个 场地 的 LAN 到 (可 能 分 布 在 不 同 的 国家 ) 属于 同一 个 公司 或 组 织 的 若干 部 门 的 若干 LAN。 


问 EE 攻 电子 邮件 服务 器 桌面 计算 机 


电子 邮件 服务 器 


文件 服务 器 4 
eS pp 









因特网 的 
其 他 部 分 


图 1-2 典型 的 企业 内 部 网 


企业 内 部 网 通过 路 由 器 连接 到 因特网 ， 因 此 企业 内 部 网 内 的 用 户 能 使 用 因特网 上 的 服务 (如 
Web 或 电子 邮件 )。 企 业内 部 网 也 允许 其 他 企业 内 部 网 的 用 户 访问 它 提供 的 服务 。 许 多 组 织 需 要 保 
护 他 们 自己 的 服务 以 免 其 他 地 方 可 能 有 恶意 的 用 户 未 经 授权 便 使 用 。 例 如 ， 公 司 不 希望 保密 的 信 
息 被 竞争 对 手 获 取 ， 医 院 不 希望 病人 病历 被 爆光 。 公 司 也 希望 自己 免 受 病毒 人 侵 这 样 的 有 害 程序 
影响 ， 以 免 他 人 对 企业 内 部 网 内 的 计算 机 的 攻击 并 摧毁 有 用 的 数据 。 

防火 墙 的 作用 是 通过 防止 未 授权 消息 进出 网 络 来 保护 企业 内 部 网 。 防 火 墙 是 通过 过 滤 进 出 的 
消息 来 实现 的 ， 例 如 根据 消息 的 源 地 址 或 目的 地 址 进行 过 滤 。 一 个 防火 墙 可 能 仅 允 许 与 电子 邮件 
和 Web 访 问 有 关 的 消息 进出 它 所 保护 的 企业 内 部 网 。 

一 些 组 织 根本 不 希望 将 他 们 的 内 部 网 连接 到 因特网 上 。 例 如 ， 警 察 机 关 和 其 他 安全 法 律 执行 
机 构 可 能 至 少 有 几 个 内 部 网 和 外 部 世界 隔离 ， 一 些 军事 组 织 在 战争 时 期 会 将 它们 的 内 部 网 与 因 特 
网 断 连 。 但 即使 是 这 样 的 组 织 ， 也 希望 从 大 量 的 采用 因特网 通信 协议 的 应 用 和 系统 软件 中 受益 。 
这 些 组 织 通常 采用 的 解决 方案 是 像 上 面 描述 的 那样 操作 企业 内 部 网 ， 但 不 与 因特网 相连 。 这 样 一 
个 企业 内 部 网 可 以 没有 防火 墙 ， 或 者 ， 从 另 一 个 角度 来 看 ， 这 有 可 能 是 最 有 效 的 防火 墙 一 一 与 因 特 
网 没有 任何 物理 连接 。 

在 设计 用 于 企业 内 部 网 的 组 件 时 ， 会 出 现下 列 主要 问题 : ， 

* 需要 文件 服务 以 便 用 户 能 共享 数据 ， 文 件 服务 的 设计 将 在 第 8 章 讨论 。 

“防火 墙 试 图 阻止 对 服务 的 合法 访问 一 一 当 需 要 在 企业 内 部 网 和 外 部 用 户 之 间 共 享 资源 时 ， 防 

火 墙 必须 增加 细 粒 度 的 安全 机 制 。 这 部 分 内 容 将 在 第 7 章 讨论 。 

“用 于 软件 安装 和 支持 的 花 销 是 一 个 重要 的 问题 。 通 过 使 用 诸如 网 络 计算 机 和 瘦 客 户 这 样 的 系 

统 体系 结构 ， 能 减少 这 些 开销 。 这 方面 的 内 容 参见 第 2 章 。 


1.2.3 移动 计算 和 无 处 不 在 计算 


设备 小 型 化 和 无 线 网 络 方面 的 技术 进步 已 经 逐步 使 得 小 型 和 便携 式 计算 设备 集成 到 分 布 式 系 
统 中 。 这 些 设备 包括 : 








* 笔记 本 电脑 。 

。 手 持 设 备 ， 包 括 个 人 数字 助理 (PDA)、 移 动 电话 、 传 呼 机 、 摄 像 机 和 数码 相机 。 

* 可 穿戴 设备 ， 如 具有 类 似 PDA 功 能 的 智能 手表 。 

“嵌入 在 家 电 (如 洗衣 机 、 高 保 真 音响 系统 、 汽 车 和 冰箱 ) 中 的 设备 。 

这 些 设备 大 多 数 具 有 可 携带 性 ， 再 加 上 它们 可 以 在 不 同 地 方 方 便 地 连接 到 网 络 的 能 力 ， 使 得 
移动 计算 成 为 可 能 。 移 动 计 算 ， 也 叫 游 牧 计算 [Kleinrock 1997]， 是 指 用 户 在 移动 或 参观 某 处 (而 
不 是 在 通常 环境 下 ) 执行 计算 任务 的 性 能 。 在 移动 计算 中 ， 远 离 其 本 地 的 企业 内 部 网 ( 指 工作 环 
境 或 其 住处 的 企业 内 部 网 ) 的 用 户 也 能 通过 他 们 携带 的 设备 访问 资源 。 他 们 能 继续 访问 因特网 ， 
继续 访问 在 他 们 本 地 内 部 企业 网 上 的 资源 。 为 用 户 在 其 移动 时 方便 地 利用 周围 资源 (如 打印 机 ) 
的 设备 也 在 不 断 增加 。 后 者 也 称 为 位 置 感知 或 上 下 文 感知 的 计算 。 

无 处 不 在 计算 [Weiser 1993] 是 指 对 在 用 户 的 物理 环境 (包括 家 庭 、 办 公 室 和 其 他 地 方 ) 中 存在 
的 多 个 小 型 便宜 的 计算 设备 的 利用 。 术 语 “ 无 处 不 在 ” 意 指 小 型 计算 设备 最 终 将 在 日 常 不 会 引 人 注 
意 的 物品 中 普及 。 也 就 是 说 ， 它 们 的 计算 行为 将 无 痕迹 地 紧密 捆绑 到 这 些 日 常 物品 的 物理 功能 上 。 

各 处 的 计算 机 只 有 在 它们 能 相互 通信 时 才 变 得 有 用 。 例 如 ， 如 果 用 户 能 通过 一 个 “通用 远程 
控制 ”设备 控制 家 里 的 洗衣 机 和 音响 系统 ， 那 么 用 户 会 觉得 很 方便 。 而 洗衣 机 在 完成 洗衣 后 能 通 
过 一 个 智能 报警 器 或 智能 手表 呼叫 用 户 ， 也 会 让 人 觉得 很 方便 。 

无 处 不 在 计算 和 移动 计算 有 交叉 的 地 方 ， 因 为 从 原理 上 说 ， 移 动用 户 能 利用 人 遍布 各 处 的 计算 机 。 
但 一 般 而 言 ， 它 们 是 不 同 的 。 无 处 不 在 计算 能 让 呆 在 家 里 或 医院 这 样 单一 的 环境 中 的 用 户 受 益 。 类 似 
地 ， 即 使 移动 计算 只 涉及 常见 的 分 立 的 计算 机 和 设备 (如 笔记 本 电脑 和 打印 机 )， 它 还 是 有 优势 的 。 

图 1-3 显 示 了 一 个 正在 访问 一 个 组 织 的 用 户 。 该 图 显示 出 用 户 本 地 的 内 部 网 和 用 户 正在 访问 的 
内 部 网 。 两 个 企业 内 部 网 通过 因特网 相连 。 





图 1-3 分 布 式 系统 中 的 便携 式 设备 和 手持 设备 


用 户 可 以 使 用 三 种 无 线 连接 。 笔 记 本 电脑 可 以 连接 到 被 访问 组 织 的 无 线 LAN。 无 线 LAN 履 盖 
方圆 几 百 米 的 范围 ( 即 建筑 物 的 一 层 )。 它 通过 网 关连 接 到 被 访问 组 织 企业 内 部 网 。 用 户 还 有 一 部 
连 到 因特网 的 移动 电话 ， 在 电话 中 这 些 信息 按 页 显示 在 电话 的 显示 屏 上 。 最 后 ， 用 户 携带 一 台数 
码 相 机 ， 它 能 通过 一 个 个 人 局 域 无 线 网 络 (其 覆盖 范围 大 约 为 1om) 与 打印 机 这 样 的 设备 通信 。 

利用 适当 的 系统 基础 设施 ， 用 户 能 用 他 们 携带 的 设备 完成 一 些 简 单 的 任务 。 当 用 户 连接 到 被 
访问 的 站 点 时 ， 他 能 通过 移动 电话 从 Web 服 务 器 上 取得 最 新 的 股票 价格 。 在 与 访问 企业 开会 时 ， 
通过 把 数码 相机 的 照片 直接 发 送 到 会 议 室 的 一 台 可 用 的 打印 机 上 ， 用 户 就 能 展示 最 近 的 照片 。 这 
仅仅 要 求 相机 和 打印 机 之 间 具 有 无 线 连接 。 原 则 上 ， 用 户 可 以 利用 无 线 LAN 或 是 有 线 的 以 太 网 链 
接 从 笔记 本 电脑 上 把 文件 发 送 到 同一 台 打 印 机 。 

移动 计算 和 无 处 不 在 计算 是 一 个 热门 的 研究 领域 ， 第 16 章 将 继续 讨论 这 两 个 主题 。 





1.3 资源 共享 和 Web 


用 户 已 经 习惯 了 资源 共享 带 来 的 好 处 ， 以 致 于 很 容易 忽视 它们 的 重要 性 。 大 家 通常 共享 硬件 
资源 (如 打印 机 )}、 数 据 资源 (如 文件 ) 和 有 具有 特定 功能 的 资源 (如 搜索 引擎 )。 

从 硬件 资源 的 观点 看 ， 大 家 共享 设备 (如 打印 机 和 磁盘 ) 可 以 减少 花费 ， 但 共享 与 用 户 应 用 、 
日 常 工作 和 社会 活动 有 关 的 更 高 层 的 资源 对 用 户 的 意义 更 大 。 例 如 ， 用 户 关 心 以 共享 数据 库 或 
Web 页 面 方式 出 现 的 共享 数据 ， 而 不 是 实现 上 述 服务 的 硬盘 和 处 理 器 。 类 似 地 ， 用 户 关心 诸如 搜 
索引 擎 或 货币 转换 器 的 共享 资源 ， 而 不 关心 提供 这 些 服务 的 服务 器 。 

实际 上 ， 资 源 共 享 的 模式 随 其 工作 范围 和 与 用 户 工作 的 密切 程度 的 不 同 而 不 同 。 一 种 极端 是 ， 
Web 上 的 搜索 引擎 给 全 世界 的 用 户 提供 工具 ， 而 用 户 之 间 并 不 需要 直接 接触 ， 另 一 种 极端 是 ， 在 
计算 机 支持 协同 工作 (CSCW) 中 ,若干 直接 进行 合作 的 用 户 在 一 个 小 型 封闭 的 小 组 中 共享 诸如 文 
档 之 类 的 资源 。 用 户 在 地 理 上 的 分 布 以 及 用 户 之 间 进 行 共享 的 模式 决定 了 系统 必须 提供 协调 用 户 
动作 的 机 制 。 

我 们 使 用 术语 服务 表示 计算 机 系统 中 管理 相关 资源 并 提供 功能 给 用 户 和 应 用 的 一 个 单独 的 部 
分 。 例 如 ， 我 们 通过 文件 服务 访问 共享 文件 ， 通 过 打印 服务 发 送 文件 到 打印 机 ， 通 过 电子 支付 服 
务 购买 商品 。 仅 仅 通过 服务 提供 的 操作 可 以 实现 对 服务 的 访问 。 例 如 ， 一 个 文件 服务 提供 对 文件 
的 read、write 和 delete 操 作 。 

服务 将 资源 访问 限制 为 一 组 定义 良好 的 操作 ， 这 属于 标准 的 软件 工程 实践 ， 同 时 它 也 反映 出 
分 布 式 系统 的 物理 组 织 。 分 布 式 系统 的 资源 是 物理 地 封装 在 计算 机 内 的 ， 其 他 计算 机 只 能 通过 通 
信 才 能 访问 。 为 了 实现 有 效 的 共享 ， 每 个 资源 必须 由 一 个 程序 管理 ， 这 个 程序 提供 通信 接口 使 得 
对 资源 进行 可 靠 和 一 致 的 访问 和 更 新 。 

大 多 数 读者 很 熟悉 术语 服务 器 ， 它 指 的 是 在 连 网 的 计算 机 上 的 一 个 运行 程序 (一 个 进程 ) ， 这 
个 程序 接收 来 自 其 他 计算 机 上 正在 运行 的 程序 请 求 ， 执 行 一 个 服务 并 适当 地 响应 。 发 出 请 求 的 进 
程 称 为 客户 。 请 求 以 消息 的 形式 从 客户 发 送 到 服务 器 ， 应 答 以 消息 的 形式 从 服务 器 发 送 到 客户 。 
当 客户 发 送 一 个 要 执行 的 操作 请 求 ， 就 称 客户 调用 那个 服务 器 上 的 操作 。 客 户 和 服务 器 之 间 的 完 
整 交 互 ， 即 从 客户 发 送 一 个 请 求 到 它 接收 到 服务 器 的 应 答 ， 称 为 一 个 远程 调用 。 

一 个 进程 可 能 既是 客户 又 是 服务 器 ， 因 为 服务 器 有 时 调用 其 他 服务 器 上 的 操作 。 术 语 “ 客 户 ” 
和 “服务 器 ”仅仅 是 针对 在 一 个 请 求 中 扮演 的 角色 而 言 。 就 它们 扮演 的 角色 不 同 这 点 而 言 ， 客 户 
是 主动 的 ， 服务 器 是 被 动 的 ， 服务 器 是 连续 运行 的 ， 而 客户 所 持续 的 时 间 只 是 客户 所 属 的 那 部 分 
应 用 程序 持续 的 时 间 。 

注意 ， 上 默认 情 况 下 ， 术 语 “ 客 户 ” 和 “服务 器 ” 指 的 是 进程 而 不 是 运行 客户 或 服务 器 的 计算 
机 ， 虽 然 在 日 常用 法 中 这 些 术 语 也 指 计算 机 。 另 一 个 不 同 ( 见 第 5 童 ) 是 在 用 面向 对 象 语言 实现 的 
分 布 式 系统 中 ， 资 源 被 封装 成 对 象 ， 并 由 客户 对 象 访 问 ， 这 时 ， 称 一 个 客户 对 象 调用 了 一 个 服务 
器 对 象 上 的 方法 。 

许多 (但 不 是 所 有 的 ) 分 布 式 系统 可 以 完全 用 客户 和 服务 器 交互 的 形式 来 构造 ， 万 维 网 、 电 
子 邮 件 和 连 网 的 打印 机 都 满足 这 种 模式 。 第 2 章 将 讨论 除 客户 一 服务 器 系统 之 外 的 其 他 系统 类 型 。 

一 个 正在 执行 的 Web 浏 览 器 是 -个 客户 的 例子 。Web 浏 览 器 与 Web 服 务 器 通信 ， 从 服务 器 上 请 
求 Web 页 面 。 下 面 将 详细 讨论 Web。 

万 维 网 


万 维 网 [www.w3.org 1, Berners-Lee 1991] 是 一 个 不 断 发 展 的 系统 ， 用 于 发 布 和 访问 因特网 上 的 
资源 和 服务 。 通 过 常用 的 Web 浏 览 器 ， 用 户 可 以 检索 和 查看 多 种 类 型 的 文档 、 收 听 音 频 文件 、 观 
看 视频 文件 、 与 无 数 服务 进行 交互 。 


ee 和 


Web 是 1989 年 在 瑞士 的 欧洲 原子 能 研究 中 心 (CERN) 诞生 的 ， 作 为 通过 因特网 连接 的 物理 学 
家 之 间 交 换文 档 用 的 工具 [Berners-Lee 1999]。Web 的 一 个 关键 特征 是 它 在 所 存储 的 文档 中 提供 了 
超 文 本 结构 ， 超 文本 结构 反映 了 用 户 对 知识 组 织 的 要 求 。 这 意味 着 文档 包含 链接 (或 超 链接 ) ， 链 
接 指向 其 他 存储 在 Web 上 的 文档 和 资源 。 

对 Web 用 户 来 说 ， 当 他 遇 到 文档 中 的 一 幅 图 像 或 一 段 文字 时 ， 它 很 可 能 伴 有 到 相关 文档 和 其 
他 资源 的 链接 。 链 接 的 结构 可 以 简单 ， 也 可 以 复杂 ， 可 加 入 的 资源 集 是 无 限 的 ， 即 链接 的 Web 确 
实 是 世界 范围 的 。Bush[1945] 在 五 十 年 前 就 设想 出 了 超 文本 结构 ， 因 特 网 的 发 展 使 得 这 个 想法 能 在 
世界 范围 内 得 到 证 实 。 

Web 是 一 个 开放 的 系统 ， 它 可 以 被 扩展 ， 并 且 在 不 妨碍 已 有 功能 的 前 提 下 用 新 的 方法 实现 扩 
展 ( 见 1.4.2 节 )。 

首先 ， 它 的 操作 是 基于 被 自由 发 布 和 广泛 实现 的 通信 标准 和 文档 标准 的 。 例 如 ， 浏 览 器 的 类 
型 是 多 种 多 样 的 。 在 多 数 情况 下 ， 每 种 浏览 器 可 以 在 多 个 平台 上 实现 ， 有 多 种 Web 服 务 器 实现 。 
一 种 构造 的 浏览 器 能 从 不 同 构造 的 服务 器 中 检索 资源 。 所 以 ， 用 户 能 访问 大 多 数 设备 (从 移动 电 
话 到 桌面 计算 机 ) 上 的 浏览 器 。 

其 次 ， 相 对 于 能 在 其 上 发 布 和 共享 的 “资源 ”的 类 型 而 言 ，Web 是 开放 的 。 在 Web 上 ， 最 简单 
的 资源 是 一 个 Web 页 面 或 其 他 能 保存 在 文件 中 并 提交 给 用 户 的 内 容 ， 如 程序 文件 、 介 质 文件 和 
PostScript 和 PDF 格式 的 文件 。 如 果 有 人 新 发 明了 一 种 图 像 存储 格式 ， 那 么 这 种 格式 的 图 像 能 马上 
在 Web 上 发 布 。 用 户 需 要 一 种 查看 这 种 新 格式 图 像 的 工具 ， 而 浏览 器 以 “帮助 者 ”应 用 和 “插件 
程序 ”的 形式 来 支持 新 的 内 容 显 示 功 能 。 

Web 的 发 展 已 超越 这 些 简单 的 数据 资源 而 开始 包含 服务 ， 如 电子 化 的 商品 购买 。Web 一 直 在 发 
展 , 但 其 基本 的 体系 结构 没有 改变 。Web 基 于 以 下 三 个 主要 的 标准 技术 组 件 : 

。 超 文本 标记 语言 (HTML) 是 页 面 在 Web 浏 览 器 上 显示 时 指定 其 内 容 和 布局 的 语言 。 

* 统一 资源 定位 器 (URL) 用 于 识别 保存 成 Web 一 部 分 的 文档 和 其 他 资源 。 第 9 章 将 讨论 有 关 

的 Web 标 识 符 的 其 他 术语 。 

。 具 有 标准 交互 规则 ( 超 文本 传送 协议 HTTP) 的 客户 一 服务 器 系统 体系 结构 ， 浏 览 器 和 其 他 

客户 可 利用 标准 交互 规则 从 Web 服 务 器 上 获取 文档 和 其 他 资源 。 图 1-4 给 出 了 一 些 Web 服 务 器 

和 向 它们 发 送 请 求 的 浏览 器 。 用 户 可 以 定位 和 管理 位 于 因特网 上 任何 地 方 的 他 们 自己 的 Web 

服务 器 ， 这 是 一 个 很 重要 的 特征 。 







www.google.com © ) 


Web 服 务 器 


www.cdk4.net 中 — 


的 文件 系统 .…” 


图 1-4 Web 服 务 器 和 Web 浏 览 器 举例 
接 下 来 我 们 依次 讨论 这 些 组 件 ， 并 解释 用 户 获取 Web 页 面 并 单 击 页 面 上 的 链接 时 ， 浏 览 器 和 
Web 服 务 器 的 操作 。 
HTML 超 文 本 标记 语言 将 这 些 内 容 [www.w3.org IT ] 用 于 指定 组 成 Web 页 面 内 容 的 文本 和 图 
像 ， 指 定 它们 以 何 种 布局 方式 和 组 织 方式 将 这 些 内 容 显示 给 用 户 。Web 页 面包 含 结构 化 的 成 分 ， 
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如 标题 、 段 落 、 表 格 和 图 像 。HTMIL 也 用 于 指定 链接 和 与 链接 相关 联 的 资源 。 

用 户 可 使 用 标准 的 文本 编辑 器 手写 生成 HTML, 或 用 能 识别 HTML 的 “所 见 即 所 得 型 ”编辑 器 ， 
根据 用 户 给 出 的 一 个 图 示 布 局 生成 HTML。 下 面 是 一 段 典 型 的 HTML 文 本 : 

<IMG SRC = "http://www.cdk4.net/WebExample/Images/earth.jpg "> 

<P> 

Welcome to Earth! Visitors may also be interested in taking a look at the 

<A HREF = "http:/www.cdk4.net/WebExample/moon.html "> Moon </A>. 

<P> 

这 段 HTML 文 本 保存 在 一 个 Web 服 务 器 可 以 访问 的 文件 《例如 earth.html 文 件 ) 中 。 浏 览 器 从 
Web 服 务 器 (本 例 中 是 一 个 位 于 名 为 www.cdk4.net 的 计算 机 上 的 服务 器 ) 中 检索 这 个 文件 的 内 容 ， 
浏览 器 读 取 从 服务 器 返回 的 内 容 后 ， 把 它 变 成 格式 化 的 文本 和 图 像 ， 以 大 家 熟悉 的 方式 放 到 Web 
页 面 上 。 只 能 由 浏览 器 (不 是 服务 器 ) 解释 HTML 文 本 ， 但 是 服务 器 确实 通知 了 浏览 器 它 所 返回 的 
内 容 的 类 型 ， 用 于 区 分 html 文 件 和 其 他 文件 (如 PostScript 文 件 )。 服 务 器 能 从 文件 的 扩展 名 “.html” 
中 推断 出 内 容 类 型 。 

注意 ，HTML 的 指令 ( 即 标记 ) 放 在 尖 括 号 里 ， 如 《〈P)。 例 子 中 的 第 一 行 确定 了 一 个 包含 图 
片 显示 的 文件 ， 图 片 的 URL 是 http://www.cdk4.net/WebExample/Images/earth.jpg。 第 二 行 的 指令 表 
示 开 始 新 段落 ， 第 三 行 和 第 四 行 包 含 要 在 Web 页 面 上 以 标准 的 段落 格式 显示 的 文本 ， 第 五 行 的 指 

其 中 ， 第 四 行 指定 了 Web 页 面 上 的 一 个 链接 。 它 包含 词 “Moon” ， 该 词 位 于 两 个 匹配 的 HTML 
标记 《A HREF…》 和 《〈/A》 中 间 。 这 些 标记 之 间 的 文本 在 Web 页 面 上 显示 时 是 以 链接 的 形式 出 现 
的 。 大 多 数 浏览 器 在 默认 情况 下 给 链接 的 文本 加 下 划 线 ， 所 以 ， 用 户 看 到 的 上 面 的 段落 将 是 ，; 

Welcome to Earth! Visitors may also be interested in taking a look at the Moon. 

浏览 器 记录 了 链接 的 显示 文本 和 包含 在 <A HREF…> 标 记 中 的 URL 之 间 的 关联 ， 在 这 个 例子 
中 是 : 

http://www.cdk4.net/WebExample/moon.html 

当 用 户 单 击 文本 时 ， 浏 览 器 获取 由 相应 URL 识 别 的 资源 ， 并 将 它 显示 给 用 户 。 在 这 个 例子 中 ， 
资源 是 一 个 HTML 文 件 ， 它 指定 了 关于 月 亮 的 一 个 Web 页 面 。 | 

URL 统一 资源 定位 器 [www.w3.org ID] 的 作用 是 识别 资源 。 在 Web 体 系 结构 文档 中 使 用 的 术 
语 是 统一 资源 标识 符 (URI)， 在 不 引起 混淆 的 前 提 下 ， 本 书 使 用 更 为 人 们 所 熟悉 的 术语 URL。 浏 
览 器 检查 URL 以 便 从 Web 服 务 器 上 访问 相应 的 资源 。 有 时 用 户 在 浏览 器 中 键 人 一 个 URL。 更 常见 
的 方式 是 用 户 单 击 一 个 链接 或 选择 一 个 书签 ， 由 浏览 器 查找 相应 的 URL， 或 当 浏览 器 去 取 一 个 
Web 页 面 里 的 内 幅 资 源 (如 一 个 图 像 )》 时 ， 由 浏览 器 查找 相应 的 URL。 

按 绝对 完整 的 格式 ， 每 一 个 URL 有 两 个 不 可 或 缺 的 组 成 部 分 : 

模式 : 模式 特定 的 位 置 
第 一 个 成 分 “模式 ”声明 了 URL 的 类 型 。 要 求 URL 能 识别 各 种 资源 。 例 如 ，mailto:joe@ anISP.net 
标识 出 一 个 用 户 的 电子 邮件 地 址 ， ftp://ftp.downloadlt.com/software/aProg.exe 标 识 一 个 用 文件 传送 
协议 (FTP) 获取 而 不 是 用 更 常用 的 HTTP 协 议 获取 的 文件 。 模 式 的 其 他 例子 有 “nntp”( 用 于 指定 
一 个 Usenet 新 闻 组 ) 和 “mid”( 用 于 标识 一 个 邮件 消息 )。 

从 Web 可 访问 (利用 URL 中 的 模式 指示 器 ) 的 资源 类 型 的 角度 来 说 ， 它 是 开放 的 。 如 果 有 人 
发 明了 一 种 新 的 有 用 的 “widget” 资 源 (可 能 用 它 专 有 的 寻 址 方案 定位 widget， 用 它 专 有 的 协议 访 
问 widget) 那么 大 家 就 能 使 用 widget: … 格 式 的 URL。 当 然 ， 浏 览 器 必须 具备 使 用 新 的 “widget” 
协议 的 能 力 ， 这 一 点 可 通过 增加 一 个 插件 实现 。 
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HTTP URL 是 使 用 最 广泛 的 定位 器 ， 它 利用 标准 的 HTTP 协 议 访问 资源 。HTTP URL 有 两 项 主 
要 的 工作 : 识别 出 哪 一 个 Web 服 务 器 维护 资源 ， 识 别 出 该 服务 器 上 的 哪些 资源 是 被 请 求 的 。 图 1-4 
显示 了 三 个 浏览 器 发 出 请 求 ， 而 被 请 求 的 资源 由 三 个 Web 服 务 器 管理 。 最 上 面 的 浏览 器 向 一 个 搜 
索引 警 发 出 查询 ， 第 二 个 浏览 器 请 求 另 一 个 Web 站 点 的 默认 页 。 最 下 面 的 浏览 器 请 求 一 个 指定 了 
全 名 (包括 了 相对 于 服务 器 的 路 径 名 ) 的 Web 页 面 。Web 服 务 器 的 文件 保存 在 服务 器 文件 系统 的 一 
个 或 多 个 子 树 (目录 ) 下 ， 每 一 个 资源 用 相对 于 服务 器 的 路 径 名 识别 。 

通常 ，HTTP URL 具 有 下 列 格式 : 

http:// 服 务 器 名 [: 端 口 ][/ 路 径 名 ][? 查 询 ][# 片 段 ] 
其 中 方 括号 中 的 项 是 可 选 的 。 一 个 HTTP URL 全 名 总 是 以 “http://” 开 始 ， 后 跟 一 个 服务 器 名 ， 该 
服务 器 名 表示 成 一 个 DNS 名 (参见 9.2 节 )。 服 务 器 的 DNS 名 后 面 可 以 加 服务 器 监听 请 求 的 “ 端 日 ” 
号 (参见 第 4 章 ) 一 -默认 值 是 80。 端 口号 后 面 是 可 选 的 服务 器 资源 的 路 径 名 ， 如 果 没 有 这 一 项 ， 
那么 请 求 的 是 服务 器 的 默认 页 。 最 后 ，URL 以 一 个 可 选 的 查询 成 分 一 - (例如 ， 当 一 个 用 户 提交 诸 
如 搜索 引擎 查询 页 这 样 的 表单 中 的 项 ) 或 片段 标识 符 ( 它 标识 资源 的 成 分 ) 结束 。 

下 面 分 析 图 1-4 的 URL: 

http://www.cdk4.net 

http://www.w3.org/Protocols/Activity.htmjl#intro 

http://www.google.com/search?q=kindberg 


上 述 URL 可 分 解 成 如 下 部 分 : 
ee 
服务 器 DNS 名 路 径 名 查询 片段 
www.cdk4.net (默认 ) (无 ) (无 ) 
www.w3.org Protocols/Activity.html (无 ) intro 


www.8oogie.com search q=Kindberg {无 ) 


第 一 个 URL 指 定 了 由 www.cdk4.net 提 供 的 默认 页 ， 第 二 个 URL 指 定 了 与 www.w3.org 服 务 器 相 
关 的 路 径 名 为 Protocols/Activity.html 的 HTML 文 件 的 片段 。 片 段 标 识 符 (由 URL 中 # 后 面 的 字符 指 
定 ) 是 intro， 浏 览 器 在 下 载 整个 文件 后 将 在 HTML 文 本 中 查找 该 片段 标识 符 。 第 三 个 URL 给 搜索 引 
擎 指定 一 个 查询 。 路 径 指定 了 -个 名 为 “search” 的 程序 ,“? ”字符 后 面 的 串 是 作为 该 程序 的 参 
数 查 询 字符 串 。 在 考虑 更 高 级 的 特征 时 ， 我 们 将 详细 讨论 识别 程序 资源 的 URL，。 

发 布 资源 ,虽然 Web 有 一 个 用 于 从 URL 检 索 资 源 的 清晰 定义 的 模型 ， 但 是 在 Web 上 发 布 资源 的 
方法 仍然 依赖 于 Web 服 务 器 的 实现 。 为 了 在 Web 上 发 布 资源 ， 最 简单 的 方法 是 在 Web 服 务 器 能 访问 
的 目录 下 放 上 相应 的 文件 。 用 户 知道 了 服务 器 S 的 名 字 和 服务 器 能 认识 的 文件 P 的 路 径 名 ， 才 能 构 
造像 http://S/P 这 样 的 URL。 用 户 可 以 把 这 个 URL 放 在 已 有 文档 中 作为 一 个 链接 或 将 这 个 URL 发 给 
(例如 ， 通 过 电子 邮件 ) 其 他 用 户 。 

有 一 些 服务 器 能 识别 的 路 径 名 约定 。 例 如 ， 按 约定 以 ~joe 开 头 的 路 径 名 是 在 用 户 joe 主 且 录 的 
子 目录 public_html 下 。 类 似 地 ， 通常 不 是 以 文件 名 结束 而 是 以 目录 名 结束 的 路 径 名 指 的 是 该 目录 
中 的 index.html 文 件 。 

Huang 等 人 [2000] 提 供 了 一 个 模型 ， 该 模型 可 用 于 以 最 少 的 人 工 干预 将 内 容 插入 Web。 它 在 用 
户 需要 从 多 种 设备 (如 照相 机 ) 提取 内 容 发 布 到 Web 页 面 时 特别 有 用 。 

HTTP 超 文 本 传输 协议 [www.w3.org IV] 定 义 了 浏览 器 和 其 他 类 型 的 客户 与 Web 服 务 器 的 交互 
方式 。 第 4 章 将 详细 讨论 HTTP， 这 里 先 概述 它 的 主要 特征 (我 们 的 讨论 将 限制 企 对 文件 资源 的 检 
索 上 ): 

请 求 一 应 答 交 互 : HTTP 是 一 个 “请 求 一 应 答 ” 协 议 。 客户 发 送 一 个 请 求 消息 给 被 请 求 资源 的 
URL 所 在 的 服务 器 。 服 务 器 查找 路 径 名 ， 如 果 它 存在 ， 就 在 应 答 消息 中 将 文件 的 内 容 返 回 给 客户 。 
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否则 ， 它 返回 一 个 出 错 应 答 ， 例 如 大 家 熟悉 的 “404 Not Found” 消 息 。 

内 容 类 型 ， 浏览 器 没 必 要 能 够 处 理 每 一 种 内 容 类 型 。 当 浏览 器 发 出 一 个 请 求 时 ， 其 中 包括 浏 
览 器 擅长 处 理 的 内 容 类 型 的 清单 一 一 例如 ， 原 则 上 浏览 器 能 够 以 “GIF” 格 式 而 不 是 “JPEG” 格 式 
显示 图 像 。 服 务 器 在 将 内 容 返 回 给 浏览 器 时 应 当 能 考虑 到 这 些 方 面 。 服 务 器 在 应 答 消息 中 包含 内 
容 类 型 ， 以 便 浏 览 器 能 知道 如 何 处 理 服务 器 返回 的 内 容 。 表 示 内 容 类 型 的 串 称 为 MIME 类 型 ，REFC 
1521[Freed and Borenstein 1996] 已 对 其 做 了 标准 化 。 例 如 ， 如 果 内 容 是 “text/html” 类 型 ， 那 么 浏 
览 器 将 把 文本 解释 成 HTML 并 加 以 显示 ， 如 果 内 容 是 “image/GIF” 类 型 ， 那 么 浏览 器 将 以 “GIF” 
格式 把 该 内 容 显示 成 图 像 ， 如 果 内 容 类 型 是 “application/zip”， 那 么 说 明 数 据 以 “zip” 格 式 压 缩 ， 
浏览 器 将 启动 一 个 外 部 的 帮助 者 应 用 程序 来 将 数据 解压 缩 。 浏 览 器 对 指定 的 内 容 类 型 所 采取 的 动 
作 是 可 配置 的 ， 读 者 可 以 检查 自己 浏览 器 的 设置 。 

一 次 请 求 一 个 资源 : 客户 的 每 个 HTTP 请 求 只 指定 一 个 资源 。 如 果 Web 页 面包 含 9 个 图 像 ， 那 
么 浏览 器 总 共 要 发 出 10 个 单独 请 求 才 能 获得 该 页 完整 的 内 容 。 通 常 浏览 器 可 同时 发 出 几 个 请 求 ， 
以 减少 对 用 户 的 整体 延迟 。 

简单 的 访问 控制 默认 情况 下 ， 通 过 网 络 与 Web 服 务 器 相连 的 用 户 能 访问 所 有 已 发 布 的 资源 。 
如 果 用 户 希 望 限制 对 一 个 资源 的 访问 ， 那 么 他 要 配置 服务 器 ， 给 发 出 请 求 的 客户 回 发 一 个 “质询 ”。 
对 应 的 用 户 要 证 明 他 们 有 权限 访问 该 资源 (如 通过 输入 口令 )。 

动态 页 面 到 目前 为 止 ， 我 们 已 经 描述 了 用 户 如 何在 Web 上 发 布 Web 页 面 和 其 他 保存 在 文件 中 
的 内 容 ， 然 而 大 多 数 用 户 对 Web 的 经 验 来 自 与 服务 交互 而 不 是 检索 数据 。 例 如 ， 当 用 户 在 一 个 网 
上 商店 中 购买 一 个 物品 时 ， 用 户 经 常 要 填写 一 个 Web 表 单 ， 写 明 他 们 的 个 人 信息 或 详细 说 明 他 们 
要 购买 什么 商品 。Web 表 单 是 包含 用 户 指令 和 诸如 文本 字段 、 复 选 框 等 窗口 输入 部 件 的 Web 页 面 。 
当 用 户 提交 表单 (通常 通过 按 下 按钮 或 “ 同 车 ” 键 ) 后 ， 浏 览 器 就 发 送 一 个 HTTP 请 求 到 Web 服 务 
器 ， 请 求 中 包含 用 户 已 经 输入 的 值 。 

因为 请 求 的 结果 取决 于 用 户 的 输入 ， 所 以 服务 器 必须 处 理 用 户 的 输入 。 因 此 ， URL 或 它 的 第 
一 个 成 分 要 指定 服务 器 上 的 一 个 程序 ， 而 不 是 一 个 文件 。 如 果 用 户 的 输入 较 短 ， 那 么 它 通常 在 
“? ”字符 后 作为 URL 的 最 后 一 个 成 分 发 送 (否则 它 作 为 请 求 的 额外 数据 发 送 )。 例如 ， 包 含 下 列 
URL “http:/www.google.com/search?q=kinderg” 的 请 求 就 表示 调用 “www.google.com” 上 的 一 个 
“search” 程 序 并 指定 了 一 个 查询 串 “kindberg”。 

“search” 程 序 产生 HTML 文 本 作为 输出 ， 用 户 将 看 见 若干 包含 单词 “kindberg” 的 页 面 。( 读 
者 可 以 在 自己 常用 的 搜索 引擎 上 输入 一 个 查询 ,注意 查看 在 返回 结果 时 浏览 器 显示 的 URL。) 服务 
器 返回 “search” 程 序 生 成 的 HTML 文 本 ， 就 好 像 是 从 文件 中 检索 到 的 一 样 。 换 句 话 说 ， 从 一 个 文 
件 中 取 的 静态 内 容 和 动态 生成 的 内 容 间 的 差别 对 浏览 器 是 透明 的 。 

在 Web 服 务 器 上 运行 的 为 客户 生成 内 容 的 程序 通常 称 为 公共 网 关 接口 (CGI) 程序 。 一 个 CGI 
程序 可 以 具有 任何 应 用 特定 的 功能 ， 只 要 它 能 分 析 客 户 提供 给 它 的 参数 ， 产 生 所 要 求 类 型 的 内 容 
(通常 是 HTML 文 本 ) ， 程 序 在 处 理 请 求 时 会 经 常 查询 或 更 新 数据 库 。 

下 载 的 代码 : CGI 程序 在 服务 器 上 运行 。 有 时 Web 服 务 的 设计 者 需要 一 些 与 服务 相关 的 代码 ， 
以 便 在 用 户 计 算 机 的 浏览 器 内 部 运行 。 例 如 ， 用 Javascript[www.netscape.com] 编 写 的 代码 下 载 
时 通常 带 有 Web 表 单 ， 以 便 提供 比 HTML 标 准 窗口 部 件 质量 更 好 的 用 户 交互 。 用 Javascript 增 强 
的 页 面 对 无 效 项 能 给 用 户 及 时 的 反馈 (而 不 是 在 服务 器 端 检 查 用 户 输入 值 ， 这 种 方法 要 花费 较 
长 的 时 间 )。 Javascript 也 能 用 于 更 新 Web 页 面 的 部 分 内 容 而 不 必 取 得 该 页 面 的 全 新 版 本 并 重新 
显示 。 

Javascript 在 功能 上 有 一 定 的 限制 。 相 比 之 下 ，applet 是 浏览 器 在 取得 相应 Web 页 面 时 能 自动 下 
载 并 运行 的 应 用 程序 。applet 能 利用 Java[java.sun.com, Flanagan 2002] 语 言 设施 来 访问 网 络 ， 提 供 
定制 的 用 户 界面 ， 例 如 ,“ 聊 天 ”应 用 程序 有 时 用 applet 实 现 ， 它 在 用 户 的 浏览 器 上 运行 ， 同 时 还 
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要 有 一 个 服务 器 程序 。applet 把 用 户 的 文本 发 送 给 服务 器 ， 服 务 器 再 给 所 有 的 applet 分 发 该 文本 ， 
用 于 给 用 户 显 示 。2.2.3 节 将 详细 讨论 applet。 

Web 服 务 到 目前 为 止 ， 我 们 主要 从 用 户 操作 浏览 器 的 角度 讨论 Web， 但 除 浏览 器 之 外 的 程序 
也 会 是 Web 的 客户 ,通过 程序 访问 Web 资 源 确实 也 是 常事 。 但 HTML 和 HTTP 标 准 在 一 定 程度 上 缺 
乏 与 程序 的 互 操作 性 。 

首先 ， 交 换 Web 上 的 多 种 类 型 的 结构 化 数据 的 需求 在 上 升 ， 但 HTML 的 功能 是 有 限制 的 ， 因 为 
它 不 能 扩展 为 信息 浏览 之 外 的 应 用 。HTML 具 有 一 套 静态 结构 (例如 段落 ) ， 并 且 其 数据 显示 给 用 
户 的 方式 也 是 受 限 的 。 可 扩展 标记 语言 (XML) ( 见 4.3.3 节 ) 是 一 种 以 标准 的 、 结 构 化 的 、 特 定 于 
应 用 的 格式 表示 数据 的 方式 。 例 如 ， 用 XML 描述 设备 的 功能 和 用 户 的 个 人 信息 。XML 是 描述 数据 
的 元 语言 ， 它 使 得 数据 在 应 用 之 间 移 植 成 为 可 能 。 

其 次 ，HTTP 没 有 提供 结构 ， 用 于 指定 服务 特定 的 可 调用 Web 资 源 的 操作 、 操 作 的 参数 和 出 错 
应 答 。 例 如 ， 在 amazon.com 网 上 商店 ，Web 服 务 操作 包括 订购 图 书 和 检查 订单 当前 状态 。 灵 活性 
的 另 一 面 是 在 软件 操作 方式 上 缺乏 健壮 性 。 第 19 章 将 深入 研究 Web 服 务 框架 ， 在 Web 服 务 框架 下 ， 
Web 服 务 的 设计 者 能 准确 地 告诉 程序 员 客户 应 当 如 何 访问 它们 。 

对 Web 的 讨论 Web 之 所 以 取得 巨大 成 功 ， 是 因为 许多 个 人 和 机 构 能 比较 容易 地 发 布 资源 ， 它 
的 超 文 本 结构 适合 组 织 多 种 类 型 的 信息 ， 而 且 Web 系 统 体系 结构 具有 开放 性 。Web 的 体系 结构 所 基 
于 的 标准 很 简单 ， 而 且 它 们 早已 被 广泛 地 发 布 。 它 们 使 得 许多 新 的 资源 类 型 和 服务 可 以 集成 在 一 
起 。 

Web 成 功 的 背后 也 存在 一 些 设计 问题 。 首 先 ， 它 的 超 文本 模型 在 某 些 方面 有 所 欠缺 。 如 果 删 
除 或 移动 了 一 个 资源 ， 那 么 就 会 存在 对 资源 的 所 谓 的 “ 基 空 ”链接 ， 会 使 用 户 请 求 落空 。 此 外 ， 
还 存在 用 户 “在 超 空间 迷失 ”这 个 常见 的 问题 。 用 户 经 常 发 现 自己 处 于 混乱 状态 下 ， 跟 随 许多 无 
关 的 链接 打开 完全 不 同 的 页 面 ， 在 有 些 情况 下 其 可 靠 性 值得 怀疑 。 

在 Web 上 查找 信息 的 另 一 种 方法 是 使 用 搜索 引擎 ， 但 这 种 方法 在 满足 用 户 真 正 需求 方面 是 相 
当 不 完美 的 。 要 解决 这 个 问题 ，Resource Description Frame work [www.w3.org V] 中 介绍 过 ， 一 
种 方法 是 生成 标准 的 表达 事物 元 数据 的 词汇 、 语 法 和 语义 ， 并 将 元 数据 封装 在 相应 的 Web 资 源 中 
供 程序 访问 。 除 了 查找 Web 页 面 中 出 现 的 单词 外 ， 从 原理 上 ， 程 序 可 以 完成 针对 元 数据 的 搜索 ， 
然后 ， 根 据 语义 匹配 编译 相关 的 链接 的 列表 。 总 而 言 之 ， 由 互 连 的 元 数据 资源 组 成 的 Web 就 是 语 
义 Web。 

作为 系统 体系 结构 ， Web 面 临 规模 的 问题 。 受 欢迎 的 Web 服 务 器 会 在 一 秒 中 有 很 多 点 击 量 ， 结 
果 导 致 对 用 户 的 回答 变 慢 。 第 2 章 将 描述 在 浏览 器 和 代理 服务 器 中 使 用 缓存 来 加 快 应 答 ， 以 及 将 服 
务 器 负载 分 配 到 集群 计算 机 上 。 但 是 ，Web 的 客户 一 服务 器 结构 意味 着 它 没有 有 效 的 手段 让 用 户 
保留 最 新 版 的 页 面 。 用 户 不 得 不 点 击 浏览 器 的 “刷新 ”按钮 确保 它们 获得 的 是 最 新 的 信息 ， 浏 览 
器 被 强制 与 服务 器 通信 ， 检 查 资 源 的 本 地 拷贝 是 否 还 是 有 效 的 。 

最 后 ， 一 个 Web 页 面 不 总 是 一 个 让 用 户 十 分 满意 的 界面 。 HTML 定 义 的 界面 部 件 是 有 限 的 ， 设 
计 者 经 常 在 Web 页 面 上 加 入 applet 或 图 像 使 得 页 面 外 观 和 功能 更 能 被 用 户 接受 ， 但 这 也 导致 下 载 时 
间 增 加 了 。 


1.4 挑战 


12 节 的 例子 试图 说 明 分 布 式 系统 的 范围 ， 并 提出 在 设计 中 出 现 的 问题 。 虽 然 分 布 式 系统 已 经 
无 处 不 在 ， 但 它们 的 设计 是 相当 简单 的 ， 还 存在 很 大 的 空间 来 开发 功能 更 加 强大 的 服务 和 应 用 。 
虽然 本 节 讨 论 的 许多 挑战 已 经 得 到 解决 ， 但 将 来 的 设计 者 还 需要 了 解 它们 ， 并 仔细 地 思考 它们 。 





1.4.1 异 构 性 

因特网 使 得 用 户 能 在 大 量 异 构 计算 机 和 网 络 上 访问 服务 和 运行 应 用 程序 。 下 面 这 些 均 存 在 异 
构 性 ( 即 存在 多 样 性 和 差别 ): 

。 网 络 

。 计 算 机 硬件 

。 操 作 系 统 

。 编程 语言 

。 由 不 同 开发 者 完成 的 软件 实现 

虽然 因特网 由 多 种 网 络 组 成 ( 见 图 1-1)， 但 因为 所 有 连接 到 因特网 的 计算 机 都 使 用 因特网 协 
议 来 相互 通信 ， 所 以 这 些 不 同 网 络 的 区 别 被 屏蔽 了 。 例 如 ， 以 太 网 中 的 计算 机 要 在 以 太 网 上 实现 
因特网 协议 ， 而 在 另 一 种 网 络 上 的 计算 机 需要 在 该 网 络 上 实现 因特网 协议 。 第 3 章 将 解释 因特网 协 
议 如 何在 多 种 不 同 网 络 上 实现 。 

整 型 等 数据 类 型 在 不 同 种 类 的 硬件 上 可 以 有 不 同 的 表示 方法 。 例 如 ， 整 数 的 字 节 顺序 就 有 两 
种 表示 方法 。 如 果 要 在 不 同 硬件 上 运行 的 两 个 程序 之 间 交 换 消息 ， 那 么 就 要 考虑 它们 在 表示 上 的 
不 同 。 

虽然 因特网 上 所 有 计算 机 的 操作 系统 均 要 包含 因特网 协议 的 实现 ， 但 不 同 的 操作 系统 对 协议 的 
应 用 编程 接口 可 以 是 不 同 的 。 例 如 ，UNIX 中 消息 交换 的 调用 与 Windows NT 中 的 调用 是 不 一 样 的 。 

不 同 的 编程 语言 用 不 同 的 方式 表示 字符 和 数据 结构 (如 数组 和 记录 )。 如 果 想 让 用 不 同 语言 
写 的 程序 能 够 相互 通信 ， 那 么 必须 解决 这 些 差异 。 

不 同 开发 者 只 有 使 用 公共 标准 ， 他 们 编写 的 程序 才能 相互 通信 。 例 如 ， 网 络 通信 和 消息 中 的 
基本 数据 项 和 数据 结构 的 表示 均 要 使 用 公共 标准 。 所 以 ， 要 制订 和 采用 像 因 特 网 协议 一 样 的 公共 
标准 。 

中 间 件 ”术语 中 间 件 是 指 一 个 软件 层 ， 它 提供 了 一 个 编程 抽象 ， 同 时 屏蔽 了 底层 网 络 、 硬 件 、 
操作 系统 和 编程 语言 的 异 构 性 。 第 4、5 和 20 章 描述 的 公共 对 象 请 求 代理 (CORBA) 就 是 一 个 中 间 
件 。 有 些 中 间 件 ， 如 Java 远程 方法 调用 (RMI) ( 见 第 5 章 ) ， 仅 支持 一 种 编程 语言 。 大 多 数 中 间 件 
在 因特网 协议 上 实现 ， 由 这 些 协 议 屏蔽 了 底 妓 网 络 的 差异 ， 但 所 有 的 中 间 件 要 解决 操作 系统 和 硬 
件 的 不 同 ， 如 何 做 到 这 一 点 将 是 第 4 章 讨 论 的 主题 。 

除了 解决 异 构 性 的 问题 外 ， 中 间 件 为 服务 器 和 分 布 式 应 用 的 程序 员 提 供 了 一 致 的 计算 模型 。 
这 些 模 型 包括 远程 对 象 调 用 、 远 程 事件 通知 、 远 程 SQL 访 问 和 分 布 式 事 务 处 理 。 例 如 ，CORBA 提 
供 了 远程 对 象 调 用 ， 它 允许 在 一 台 计 算 机 上 运行 的 程序 中 的 对 象 调用 在 另 一 台 计 算 机 上 运行 的 某 
个 程序 中 的 一 个 对 象 的 方法 。 它 从 实现 上 屏 项 了 为 了 发 送 调用 请 求 和 应 答 ， 消 息 通 过 网 络 传递 的 
事实 。 

异 构 性 和 移动 代码 ”术语 移动 代码 指 能 从 一 台 计 算 机 发 送 到 另 一 台 计算 机 ， 并 在 目的 计算 机 上 
运行 的 代码 ，Java applet 是 一 个 例子 。 适 合 在 一 种 计算 机 上 运行 的 代码 未 必 适 合 在 另 一 种 计算 机 上 
运行 ， 因 为 可 执行 程序 通常 依赖 于 计算 机 的 指令 集 和 操作 系统 。 例 如 ，Windows/x86 用 户 能 够 把 可 
执行 文件 作为 电子 邮件 的 附件 发 送 ， 但 接收 者 不 能 在 运行 MacOS X 的 Macintosh 计 算 机 或 运行 
Linux 的 x86 计 算 机 上 执行 该 文件 。 | 

虚拟 机 方法 提供 了 一 种 使 代码 可 在 任何 硬件 上 运行 的 方法 ， 某 种 语言 的 编译 器 生成 一 台 虚 拟 机 
的 代码 而 不 是 某 种 硬件 代码 ， 例 如 ，Java 编 译 器 生成 Java 虚 拟 机 的 代码 ， 而 为 了 使 Java 程 序 能 运行 ， 
要 在 每 种 硬件 上 实现 一 次 Java 虚 拟 机 ， 然 而 ，Java 解 决 方案 并 不 能 应 用 到 用 其 他 语言 编写 的 程序 。 


1.4.2 开放 性 
计算 机 系统 的 开放 性 是 决定 系统 能 否 以 不 同 的 方式 被 扩展 和 重新 实现 的 特征 。 分 布 式 系统 的 
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开放 性 主要 取决 于 新 的 资源 共享 服务 能 被 增加 和 供 多 种 客户 程序 使 用 的 程度 。 

除非 软件 开放 者 能 获得 系统 组 件 的 关键 软件 接口 的 规约 和 文档 ， 否 则 无 法 达到 开放 性 。 一 句 
话 ， 发 布 关 键 接口 。 这 个 过 程 类 似 接口 的 标准 化 ， 但 它 经 常 避 开 官 方 的 标准 化 过 程 ， 官 方 的 标准 
化 过 程 通常 繁琐 且 进 度 缓慢 。 

然而 ， 发 布 接口 仅 是 分 布 式 系统 增加 和 扩展 服务 的 起 点 。 设 计 者 所 面临 的 挑战 是 解决 由 不 同 
人 构造 的 由 许多 组 件 组 成 的 分 布 式 系统 的 复杂 性 。 

因特网 协议 的 设计 者 引入 了 一 系列 称 为 “征求 意见 文件 ”( 即 RFC) 的 文档 ， 每 个 文档 有 一 个 
编号 。20 世 纪 80 年 代 早期 发 布 了 因特网 通信 协议 的 规约 ， 并 放 和 RFC 中， 中 期 发 布 了 在 因特网 上 
运行 的 应 用 的 规约 ， 如 文件 传输 规约 、 电 子 邮 件 规约 和 telnet 规 约 。 这 种 活动 一 直 在 继续 ， 形 成 了 
因特网 技术 文档 的 基础 。 除 了 协议 规约 ， 该 序列 还 包含 讨论 。 读 者 可 从 [www.ietf.org] 获 得 这 些 资 
料 。 最 初 的 因特网 通信 协议 的 发 布 使 得 各 种 因特网 系统 和 应 用 (包括 Web) 应 运 而 生 。RFC 不 是 唯 
一 的 发 布 方式 ， 例 如 ，CORBA 是 通过 一 系列 技术 文档 发 布 的 ， 包 括 CORBA 服 务 接口 的 完整 规约 。 
请 参见 [www.omg.org]。 

按 这 种 方式 支持 资源 共享 的 系统 之 所 以 称 为 开放 的 分 布 式 系统 ， 主 要 是 强调 它们 是 可 扩展 的 。 
它们 可 通过 在 网 络 中 增加 计算 机 实现 在 硬件 级 的 扩展 ， 通 过 引入 新 的 服务 、 重 新 实现 旧 的 服务 在 
软件 级 的 扩展 ， 最 终 使 得 应 用 程序 能 共享 资源 。 开 放 系统 常 被 提 到 的 另 一 个 好 处 是 它们 与 销售 商 
无 关 。 

开放 的 分 布 式 系统 的 特征 总 结 如 下 : 

。 发 布 系统 的 关键 接口 是 开放 系统 的 特征 。 

“开放 的 分 布 式 系统 是 基于 一 致 的 通信 机 制 和 发 布 接口 访问 共享 资源 的 。 

“开放 的 分 布 式 系统 能 用 不 同 销售 商 提供 的 异 构 硬 件 和 软件 构造 ， 但 如 果 想 让 系统 正确 工作 ， 

就 要 仔细 测试 和 验证 每 个 组 件 与 发 布 的 标准 之 间 的 一 致 性 。 


1.4.3 安全 性 


分 布 式 系统 维护 和 使 用 的 众多 信息 资源 对 用 户 具有 很 高 的 内 在 价值 ， 因 此 它们 的 安全 相当 重 
要 。 信 息 资源 的 安全 性 包括 三 个 部 分 : 机 密 性 (防止 泄漏 给 未 授权 的 个 人 ) 、 完 整 性 (防止 被 改变 
或 被 破坏 )、 可 用 性 《防止 对 访问 资源 的 手段 的 干扰 )。 

1.1 节 指出 ， 虽 然 因特网 允许 一 台 计 算 机 中 的 程序 与 另 一 台 计 算 机 上 的 程序 通信 ， 而 且 可 以 不 
考虑 它们 的 位 置 ， 但 安全 风险 与 允许 自由 访问 企业 内 部 网 内 的 所 有 资源 相关 。 虽 然 防 火 墙 能 形成 
保护 企业 内 部 网 的 屏障 ， 限 制 进 出 企业 内 部 网 的 流量 ， 但 这 不 能 确保 企业 内 部 网 的 用 户 恰 当地 使 
用 资源 ， 或 恰当 地 使 用 因特网 的 资源 ， 后 一 种 资源 不 被 防火 墙 保护 。 

在 分 布 式 系统 中 ， 客 户 发 送 访问 由 服务 器 管理 的 数据 的 请 求 ， 这 涉及 在 网 络 上 通过 消息 发 送 
信息 。 例 如 : 

1) 医生 可 能 请 求 访问 医院 病人 的 数据 或 发 送 新 增 的 病人 数据 。 

2) 在 电子 商务 和 电子 银行 中 ， 用 户 在 因特网 上 发 送信 用 卡号 码 。 

上 面 两 个 例子 所 面临 的 挑战 是 以 安全 的 方式 在 网 络 上 通过 消息 发 送 敏感 信息 。 但 安全 性 不 只 
是 涉及 对 消息 的 内 容 保 密 ， 它 还 涉及 确切 知道 用 户 或 代表 用 户 发 送 消息 的 其 他 代理 的 身份 。 在 第 
一 个 例子 中 ， 服 务 器 要 知道 用 户 确实 是 一 个 医生 ， 在 第 二 个 例子 中 ， 用 户 要 确保 他 们 正在 交易 的 
商店 或 银行 的 身份 正确 。 这 里 ， 所 面临 的 第 二 个 挑战 是 正确 地 识别 远程 用 户 或 其 他 代理 的 身份 。 
利用 加 密 技 术 可 满足 这 两 个 挑战 。 因 特 网 上 广泛 使 用 加 密 技 术 ， 第 7 章 将 讨论 这 个 问题 。 

然而 ， 下 列 两 个 安全 方面 所 面临 的 挑战 目前 还 没有 圆满 解决 : 

拒绝 服务 攻击 : 另 一 个 安全 问题 是 出 于 某 些 原因 用 户 可 能 希望 中 断 服务 。 可 用 下 面 的 方法 实 
现 这 个 目的 : 用 大 量 无 意义 的 请 求 攻击 服务 ， 使 得 重要 的 用 户 不 能 使 用 它 。 这 称 为 拒绝 服务 攻击 。 
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时 不 时 地 就 会 发 生 对 几 个 众所周知 的 Web 服 务 进行 的 拒绝 服务 攻击 。 现 在 通过 在 事件 发 生 后 抓获 
和 和 无 罚 犯罪 者 来 解决 这 种 攻击 ， 但 这 不 是 解决 这 种 问题 的 通用 方法 。 以 改善 网 络 管理 为 根本 的 反 
而 手段 正在 开发 过 程 中 ， 第 3 章 会 讲解 这 些 问 题 。 

移动 代码 的 安全 : 移动 代码 需要 小 心 处 理 。 设 想 用 户 接收 到 一 个 作为 电子 邮件 附件 发 送 的 可 
执行 程序 ， 那 么 运行 该 程序 会 带 来 的 后 果 是 不 可 预测 的 。 例 如 ， 它 可 能 看 似 显 示 了 一 幅 有 趣 的 画 ， 
但 实际 上 它 可 能 在 访问 本 地 资源 ， 或 可 能 是 拒绝 服务 攻击 的 一 部 分 。 确 保 移动 代码 安全 的 一 些 手 
段 会 在 第 7 章 中 谈 到 。 
1.4.4 可 伟 缩 性 

分 布 式 系统 可 在 不 同 的 规模 (从 小 型 企业 内 部 网 到 因特网 ) 下 有 效 且 高 效 地 运转 。 如 果 资 源 
数量 和 用 户 数量 激增 ， 系 统 仍 能 保持 其 有 效 性 ， 那 么 该 系统 就 称 为 可 伸缩 的 。 因 特 网 就 是 一 个 计 
算 机 数量 和 服务 数量 不 断 增 长 的 分 布 式 系 统 的 例子 。 图 1-5 列 出 了 到 2003 为 止 的 24 年 间 因特网 上 计 


算 机 数量 的 增加 情况 ， 图 1-6 则 列 出 到 2004 年 为 止 Web 出 现 的 10 年 间 计 算 机 和 Web 服 务 器 数量 的 增 
长 情况 ， 见 [zakon.org]。 








日 期 计算 机 Web 服 务 器 
1979 年 12 月 188 0 

1989 年 7 月 130 000 0 

1999 年 7 月 56 218 000 5 560 866 
2003 年 1 月 171 638 297 35 424 956 





图 1-5 因特网 上 的 计算 机 数量 〈 带 注册 的 下 地 址 ) 








日 期 计算 机 Web 服 务 器 百分比 
1993 年 7 月 1 776 000 130 0.008 
1995 年 7 月 6 642 000 23 500 0.4 
1997 年 7 月 19 540 000 1 203 096 6 

1999 年 7 月 56 218 000 6 598 697 12 
2001 年 7 月 125 888 197 31 299 592 25 
2003 年 7 月 42 298 371 





一 个 Web 服 务 器 可 能 部 署 在 多 个 场地 。 
图 1-6 因特网 上 的 计算 机 和 Web 服 务 器 数量 


可 伸缩 分 布 式 系统 的 设计 面临 下 列 挑战 : 

控制 物理 资源 的 开销 ， 当 对 资源 的 需求 增加 时 ， 应 该 可 以 花费 合理 的 开销 扩展 系统 以 满足 要 
求 。 例 如 ， 在 企业 内 部 网 上 文件 被 访问 的 频率 可 能 随 用 户 和 计算 机 数量 的 增加 而 增加 。 如 果 一 台 
文件 服务 器 不 能 处 理 所 有 的 文件 访问 请 求 ， 那 么 必须 能 增加 服务 器 数量 以 避免 可 能 出 现 的 性 能 瓶 
天。 通常 ， 要 使 有 n 个 用 户 的 系统 成 为 可 伸缩 的 ， 那 么 所 需 的 物理 资源 数量 应 该 至 多 为 O(n)， 即 正 
比 于 n。 例 如 ， 如 果 一 个 文件 服务 器 能 支持 20 个 用 户 ， 那 么 两 台 这 样 的 服务 器 应 该 能 支持 40 个 用 户 。 
虽然 这 听 起 来 好 像 是 理所当然 ， 但 实际 上 并 不 容易 达到 ， 具 体内 容 请 参见 第 8 章 。 

控制 性 能 损失 : 如 果 数 据 集 的 大 小 与 系统 中 的 用 户 或 资源 数量 成 正比 ， 设 想 一 下 这 些 数据 的 
管理 ， 例 如 ， 记 录 计 算 机 的 域名 和 对 应 的 由 域名 系统 持 有 的 因特网 地 址 的 表 ， 这 种 表 主 要 用 于 查 
找 如 www.amazon.com 这 样 的 DNS 名 字 。 采用 层次 结构 的 算法 其 伸缩 性 要 好 于 使 用 线性 结构 的 算法 。 
但 即使 使 用 层次 结构 ， 数 量 的 增加 仍 将 导致 一 些 性 能 上 的 损失 ， 即 访问 有 层次 的 结构 化 数据 的 时 
间 是 O(log n)， 其 中 nn 是 数据 集 的 大 小 。 对 一 个 可 伸缩 的 系统 ， 最 大 的 性 能 损失 莫 过 于 此 。 
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防止 软件 资源 用 尽 ， 用 做 因特网 地 址 (IP 地址 ) 的 数字 是 缺乏 伸缩 性 的 一 个 例子 。 在 20 世 纪 
70 年 代 上 晚期， 决定 用 32 位 作为 因特网 地 址 ， 但 第 3 章 将 会 提 到 ， 可 用 的 因特网 地 址 将 会 用 尽 。 由 于 
这 个 原因 ， 新 版 的 协议 将 使 用 128 位 的 因特网 地 址 ， 这 就 要 求 对 许多 软件 组 件 进行 修改 。 要 对 因 特 
网 的 早期 设计 者 公平 一 些 ， 这 个 问题 是 没有 正确 答案 的 ， 因 为 很 难 预 测 一 个 系统 若干 年 后 的 需求 。 
而 且 ， 过 度 考虑 将 来 的 增长 可 能 比 面临 问题 (过 长 的 因特网 地 址 将 占据 额外 的 消息 空间 和 计算 机 
存储 空间 ) 时 再 做 改变 的 效果 更 糟 。 

避免 性 能 瘦 颈 : 通常， 算法 应 该 是 分 散 型 ， 以 避免 性 能 瓶颈 。 我 们 用 域名 系统 的 前 身 来 说 明 
这 一 点 ， 那 时 名 字 表 被 保存 在 一 个 主 文件 中 ， 可 被 任何 需要 它 的 计算 机 下 载 。 当 因特网 中 只 有 几 
百 个 计算 机 时 这 是 可 以 的 ， 但 随 着 用 户 数量 的 增加 ， 这 就 变 成 了 一 个 严重 的 性 能 和 管理 瓶颈 。 现 
在 ， 域 名 系统 将 名 字 表 分 区 ， 分 散 到 因特网 中 的 服务 器 上 并 采用 本 地 管理 的 方式 ， 从 而 解决 了 这 
个 瓶颈 (参见 第 3 章 和 第 9 章 )。 

有 些 共享 资源 被 非常 频繁 地 访问 。 例 如 ， 许 多 用 户 访问 同一 Web 页 面 会 引起 网 络 性 能 下 降 。 
我 们 将 在 第 2 章 了 解 到 缓存 和 复制 可 以 用 于 提高 频繁 使 用 的 资源 的 性 能 。 

理想 状态 下 ， 系 统 规模 增加 时 系统 和 应 用 程序 应 该 不 需要 随 之 改变 ， 但 这 一 点 很 难 达到 。 规 
模 问 题 是 分 布 式 系统 开发 中 面临 的 主要 问题 ， 本 书 将 深入 地 讨论 已 经 成 功 应 用 的 技术 。 它 们 包括 
复制 数据 的 使 用 〈 见 第 15 章 ) 、 缓 存 的 相关 技术 〈 见 第 2、8 章 ) 、 部 署 多 服务 器 以 处 理 常见 的 任务 
从 而 使 几 个 类 似 的 任务 能 并 发 地 完成 。 


1.4.5 故障 处 理 


计算 机 系统 有 时 会 出 现 故障 。 当 硬件 或 软件 发 生 故 障 时 ， 程 序 可 能 会 产生 不 正确 的 结果 或 者 
在 它们 完成 应 该 进行 的 计算 之 前 就 停止 了 。 第 2 章 将 讨论 可 能 在 分 布 式 系统 的 进程 和 网 络 中 发 生 的 
故障 并 对 其 分 类 。 

分 布 式 系统 的 故障 是 部 分 的 ， 也 就 是 说 ， 有 些 组 件 运行 正常 而 有 些 组 件 出 了 故障 。 因 此 故障 
的 处 理 相当 困难 。 本 书 将 讨论 下 列 处 理 故障 的 技术 ， 

检测 故障 : 有 些 故障 能 被 检测 。 例 如 ， 校 验 和 可 用 于 检测 消息 或 文件 中 出 错 的 数据 。 第 2 章 将 
解释 该 方法 很 难 甚至 不 可 能 检测 到 其 他 一 些 故障 (如 因特网 上 一 台 远 程 服务 器 的 崩溃 )。 这 种 方法 
面临 的 挑战 是 如 何 处 理 不 能 被 检测 但 被 怀疑 的 故障 。 

掩盖 故障 : 有 些 被 检测 到 的 故障 能 被 隐藏 起 来 或 降低 它 的 严重 程度 。 下 面 是 隐藏 故障 的 两 个 
例子 : 

1) 消息 在 不 能 到 达 时 进行 重 传 。 

2) 将 文件 数据 写 人 两 个 磁盘 ， 如 果 一 个 磁盘 损坏 ， 另 一 个 磁盘 的 数据 仍 是 正确 的 。 

降低 故障 严重 程度 的 例子 是 丢掉 被 损坏 的 消息 〈 可 以 对 它 进行 重 传 )。 读 者 可 能 意识 到 ， 在 最 
坏 情 况 下 ， 隐 藏 故障 的 技术 不 能 保证 系统 正常 工作 。 例 如 ， 第 二 个 磁盘 上 的 数据 可 能 也 坏 了 ， 或 
消息 无 论 怎样 重 传 都 不 能 在 合理 的 时 间 内 到 达 。 

容错 : 因特网 上 的 大 多 数 服务 确实 有 可 能 发 生 故 障 ， 要 在 容纳 了 众多 组 件 的 大 规模 的 网 络 上 
检测 可 能 发 生 的 故障 ， 并 将 故障 隐藏 是 不 太 实际 的 。 服 务 器 的 客户 能 设计 成 容错 的 ， 这 通常 也 涉 
及 容忍 错误 的 用 户 。 例 如 ， 当 Web 浏 览 器 不 能 与 Web 服 务 器 联系 时 ， 它 不 会 让 用 户 一 直 等 待 它 与 服 
务 器 建立 连接 ， 而 是 通知 用 户 这 个 问题 ， 让 用 户 自由 选择 是 否 尝试 稍 后 再 连接 。 容 错 的 服务 见 下 
面 关 于 元 余 的 讨论 。 

故障 恢复 : 恢复 涉及 软件 的 设计 ， 以 便 在 服务 器 崩溃 后 ， 永 久 数 据 的 状态 能 被 恢复 或 “ 回 滚 ”。 
通常 ， 在 出 现 错误 时 ， 程 序 完成 的 计算 是 不 完整 的 ， 被 更 新 的 永久 数据 (文件 和 其 他 保存 在 永久 
存储 介质 中 的 资料 ) 可 能 处 在 不 一 致 的 状态 。 惰 复 的 讲解 见 第 14 章 。 

元 余 : 利用 元 余 组 件 ， 服 务 可 以 实现 容错 。 考 虑 下 面 的 例子 ， 
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1) 在 因特网 的 任何 两 个 路 由 器 之 间 ， 至 少 应 该 存在 两 个 不 同 的 路 由 。 

2) 在 域名 系统 中 ， 每 个 名 字 表 至 少 被 复制 到 两 个 不 同 的 服务 器 上 。 

3) 数据 库 可 以 复制 到 儿 个 服务 器 上 ， 以 保证 在 任何 一 个 服务 器 出 现 故障 后 数据 仍 是 可 访问 的 。 
服务 器 应 该 能 检测 其 他 服务 的 错误 ， 当 检测 到 一 个 服务 器 上 有 错误 时 ， 客 户 就 被 重 定向 到 剩 下 的 
服务 器 上 。 

设计 有 效 的 技术 来 保证 服务 器 上 数据 的 副本 是 最 新 的 ， 而 且 不 过 度 地 损失 网 络 的 性 能 ， 这 是 
一 个 挑战 。 具 体 方法 将 在 第 15 章 讨论 。 

面 对 硬 件 故 障 ， 分 布 式 系统 具有 高 可 用 性 。 系 统 的 可 用 性 是 系统 可 用 时 间 的 比例 的 度量 。 当 
分 布 式 系 统 中 的 一 个 组 件 出 现 故障 时 ， 仅 仅 是 使 用 受 损 组 件 的 那 部 分 工作 受到 影响 。 如 果 用 户 正 
在 使 用 的 计算 机 出 现 故障 ， 用 户 可 以 将 工作 转移 到 另 一 台 计 算 机 上 ， 并 且 服 务 器 进程 能 在 另 一 台 
计算 机 上 启动 。 


1.4.6 并 发 性 


在 分 布 式 系 统 中 ， 服 务 和 应 用 均 提 供 可 被 客户 共享 的 资源 。 因 此 ， 可 能 有 几 个 客户 同时 试图 
访问 一 个 共享 的 资源 的 情况 。 例 如 ， 在 接近 拍卖 最 终 期 限时 ， 记 录 拍 卖 竞价 数据 结构 可 能 被 非常 
频繁 地 访问 。 

管理 共享 资源 的 进程 一 次 接受 一 个 客户 请 求 ， 但 这 种 方法 限制 了 吞吐 量 。 因 此 ， 服 务 和 应 用 
通常 允许 并 发 地 处 理 多 个 客户 请 求 。 为 了 详细 说 明 这 一 点 ， 假设 每 个 资源 被 封装 成 一 个 对 象 ， 在 
并 发 线程 中 执行 调用 。 在 这 种 情况 下 ， 几 个 线程 可 能 在 一 个 对 象 内 并 发 地 执行 ， 它 们 对 对 象 的 操 
作 可 能 相互 冲突 ， 产 生 不 一 致 的 结果 。 例 如 ， 如 果 拍 卖 中 两 个 并 发 的 竞标 是 “Smith:$122” 和 
“Jones:$111”， 那 么 相应 的 操作 在 没有 任何 控制 时 可 能 是 交错 进行 的 ， 它 们 可 能 保存 成 
“Smith:$111” 和 “Jones:$122”。 

这 个 例子 是 为 了 说 明 在 分 布 式 系统 中 ， 代 表 共 享 资源 的 任何 一 个 对 象 必须 负责 确保 它 在 并 发 
环境 中 操作 正确 ， 这 不 仅 适 用 于 服务 器 ， 也 适用 于 应 用 中 的 对 象 。 因 此 ， 持 有 不 希望 用 于 分 布 式 
系统 的 对 象 实现 的 程序 员 必 须 做 一 些 事 情 ， 使 得 对 象 在 并 发 环境 中 能 安全 使 用 。 

为 了 使 对 象 在 并 发 环境 中 能 安全 使 用 ， 它 的 操作 必须 在 数据 保持 一 致 的 基础 上 同步 。 这 可 通 
过 标准 的 技术 (如 大 多 数 操作 系统 使 用 的 信号 量 ) 来 实现 。 这 个 主题 及 其 在 分 布 式 共 享 对 象 方面 
的 扩展 见 第 6 章 和 第 13 章 的 讨论 。 


1.4.7 透明 性 


透明 性 被 定义 成 对 用 户 和 应 用 程序 员 屏 薇 分 布 式 系统 的 组 件 的 分 离 性 ， 使 系统 被 认为 是 一 个 
整体 ， 而 不 是 独立 组 件 的 集合 。 透 明 性 的 含义 对 系统 软件 的 设计 有 重大 的 影响 。 

ANSA 参 考 手册 [ANSA 1989] 和 国际 标准 化 组 织 的 开放 分 布 式 处 理 的 参考 模型 (RM-ODP) 
[SO 1992] 确 定 了 八 种 透明 性 。 下 面 将 解释 最 初 的 ANSA 定 义 ， 并 用 范围 更 广 的 移动 透明 性 替换 迁 
移 透 明 性 : 

访问 透明 性 : 用 相同 的 操作 访问 本 地 资源 和 远程 资源 。 

位 置 进 明 性 : 不 需要 知道 资源 的 物理 或 网 络 位 置 (例如 ， 哪 个 建筑 物 或 了 地 址 ) 就 能 够 访问 
它们 。 

并 发 迁 明 性 :; 几 个 进程 能 并 发 地 使 用 共享 资源 进行 操作 且 互 不 干扰 。 

复制 选 明 性 : 使 用 资源 的 多 个 实例 增加 可 靠 性 和 性 能 ， 而 用 户 和 应 用 程序 员 无 需 知道 副本 的 
相关 信息 。 


故障 迁 明 性 :屏蔽 错误 ， 不 论 是 硬件 组 件 故障 还 是 软件 组 件 故 障 ， 用 户 和 应 用 程序 都 能 够 完 
成 它们 的 任务 。 
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移动 透明 性 : 资源 和 客户 能 够 在 系统 内 移动 而 不 会 影响 用 户 或 程序 的 操作 。 

性 能 透明 性 : 当 负 载 变化 时 ， 系 统 能 被 重新 配置 以 提高 性 能 。 

伸缩 透明 性 : 系统 和 应 用 能 够 进行 扩展 而 不 改变 系统 结构 或 应 用 算法 。 

最 重要 的 两 个 透明 性 是 访问 透明 性 和 位 置 透明 性 ， 它 们 的 有 无 对 分 布 式 资源 的 利用 有 很 大 影 
响 。 有 时 它们 统一 称 为 网 络 透明 性 。 

为 了 说 明 访 问 透 明 性 ， 我 们 考虑 具有 文件 夹 的 图 形 用 户 界面 ， 无 论文 件 夹 中 的 文件 在 本 地 还 
是 在 异地 ， 图 形 用 户 界 面 应 该 是 一 样 的 。 另 一 个 例子 是 API 文 件 ， 它 使 用 相同 的 操作 访问 本 地 和 远 
程 文件 ( 见 第 8 章 )。 如 果 一 个 分 布 式 系统 不 允许 访问 远程 计算 机 上 的 文件 ， 除 非 用 户 利 用 ftp 程 序 
进行 访问 ， 否 则 认为 这 个 系统 就 缺乏 访问 透明 性 。 

Web 资 源 名 或 URL 具 有 位 置 透明 性 ， 因 为 URL 中 识别 Web 服 务 器 域名 的 部 分 指 的 是 域 中 的 计 
算 机 名 字 ， 而 不 是 因特网 地 址 。 然 而 ，URL 不 是 移动 透明 的 ， 因 为 某 人 的 Web 页 面 不 能 移动 到 另 
一 个 域 中 新 的 工作 位 置 ， 因 为 其 他 页 面 上 的 所 有 链接 仍 将 指向 原来 的 页 面 。 

像 URL (包括 计算 机 域名 ) 这 样 的 标识 符 妨碍 了 复制 透明 性 。 虽 然 DNS 人 允许 一 个 域名 指向 几 
台 计 算 机 ， 但 它 在 查找 名 字 时 只 选 其 中 的 一 台 计 算 机 。 因 为 复制 方案 通常 要 能 够 访问 网 络 中 所 有 
参与 其 中 的 计算 机 ， 所 以 应 该 根据 名 字 访 问 DNS 条 目 中 的 每 台 计 算 机 。 

为 了 说 明 网 络 透 明 性 ， 考 虑 电子 邮件 地 址 (如 Fred.Flintstone@stoneit.com) 的 使 用 。 该 地 址 
由 用 户 名 和 域名 组 成 。 注 意 ， 虽 然 邮 件 程 序 将 用 户 名 接收 为 本 地 用 户 ， 但 它们 还 是 附加 了 本 地 域 
名 。 给 这 样 的 用 户 发 送 邮 件 不 需 知 道 他 们 的 物理 位 置 或 网 络 位 置 ， 发 送 邮 件 消息 的 过 程 也 不 依赖 
于 接收 者 的 位 置 。 因 此 ， 因 特 网 中 的 电子 邮件 支持 位 置 透明 性 和 访问 透明 性 ( 即 网 络 透明 性 )。 

故障 透明 性 也 可 以 用 电子 邮件 的 例子 来 说 明 ， 即 使 服务 器 或 通信 链接 出 现 故 障 ， 最 终 邮 件 还 
是 能 被 发 送 。 此 时 故障 被 屏 茂 ， 因 为 邮件 被 一 直 重 发 直到 它 被 成 功 传递 到 目的 地 址 ， 即 使 这 个 过 
程 花费 儿 天 时 间 。 中 间 件 通常 将 网 络 和 进程 的 故障 转换 成 程序 级 的 异常 (详细 解释 参见 第 5 童 ) 。 

为 了 说 明 移 动 透明 性 ， 再 举 一 个 移动 电话 的 例子 。 假 设 打 电话 者 和 接 电话 者 都 在 一 个 国家 的 
不 同 地 方 乘 火车 旅行 ， 他 们 从 一 个 环境 〈 蜂 窝 ) 移 到 另 一 个 环境 。 我 们 将 打 电 话 者 的 电话 作为 客 
户 ， 接 电话 者 的 电话 作为 一 个 资源 。 两 个 使 用 电话 的 用 户 并 没有 意识 到 电话 (客户 和 资源 ) 在 蜂 
窝 之 间 的 移动 。 

透明 性 对 用 户 和 应 用 程序 员 隐 藏 了 与 手头 任务 无 直接 关系 的 资源 ， 并 使 得 这 些 资源 能 被 匿名 
使 用 。 例 如 ， 通 常 为 完成 任务 ， 对 相似 的 硬件 资源 的 分 配 是 可 互 换 的 一 一 用 于 执行 一 个 进程 的 处 理 
器 通常 对 用 户 隐藏 身份 并 一 直 处 于 匿名 状态 。 但 正如 1.2.3 节 指出 的 ， 情 况 并 不 总 是 如 此 。 例 如 ， 
旅行 者 每 到 一 处 便 将 他 的 笔记 本 电脑 连接 到 本 地 网 络 ， 他 应 该 能 通过 每 处 的 不 同 的 服务 器 使 用 本 
地 服务 (如 发 送 邮件 服务 )。 即 使 在 一 栋 建筑 物 内 ， 将 要 打印 的 文件 发 送 到 靠近 用 户 的 某 台 打印 机 
上 打印 也 是 很 常见 的 。 


1.5 “小结 


分 布 式 系统 无 处 不 在 。 因 特 网 的 出 现 使 全 世界 用 户 无 论 走 到 哪里 都 能 访问 因特网 上 的 服务 。 
每 个 组 织 都 管理 一 个 企业 内 部 网 ， 并 通过 该 企业 内 部 网 为 本 地 用 户 提供 本 地 服务 和 因特网 服务 ， 
也 为 因特网 上 的 其 他 用 户 提供 服务 。 小 型 的 分 布 式 系统 可 由 移动 计算 机 和 其 他 可 连接 到 无 线 网 络 
的 小 型 计算 设备 构造 。 

资源 共享 是 促进 分 布 式 系统 的 构建 的 主要 因素 。 打 印 机 、 文 件 、Web 页 面 或 数据 库 记录 这 样 
的 资源 均 由 相应 类 型 的 服务 器 管理 。 例 如 ，Web 服 务 器 管理 Web 页 面 和 其 他 Web 资 源 。 资 源 由 客户 
访问 ，Web 服 务 器 的 客户 通常 称 为 浏览 器 。 

分 布 式 系统 的 构造 面临 着 许多 挑战 

异 构 性 : 分 布 式 系统 必须 基于 多 种 不 同 的 网 络 、 操 作 系统 、 计 算 机 硬件 和 编程 语言 构造 。 因 
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特 网 通信 协议 屏蔽 了 网 络 的 差异 ， 中 间 件 能 处 理 其 他 的 差异 。 

开放 性 : 分 布 式 系统 应 该 是 可 扩展 的 一 一 第 一 步 是 发 布 组 件 的 接口 ， 但 由 不 同 程序 员 编写 的 组 
件 的 集成 是 - -个 真正 的 挑战 。 

安全 性 : 加 密 用 于 为 共享 资源 提供 充分 的 保护 ， 在 网 络 上 用 消息 传送 敏感 信息 时 ， 通 过 加 密 
的 手段 来 保护 敏感 信息 。 服 务 拒绝 攻击 仍然 是 一 个 问题 。 

可 伸缩 性 : 就 必须 要 增加 的 资源 而 言 ， 如 果 分 布 式 系统 增加 一 个 用 户 的 开销 是 一 个 常量 ， 那 
么 这 个 分 布 式 系统 是 可 伸缩 的 。 用 于 访问 共享 数据 的 算法 应 该 避免 性 能 上 瓶颈， 数据 应 该 组 织 成 层 
次 化 的 结构 以 获得 最 好 的 访问 时 间 。 频 繁 访问 的 数据 应 能 被 复制 。 

故障 处 理 : 任 -- 进 程 、 计 算 机 或 网 络 都 可 能 出 现 故障 。 因 此 每 个 组 件 需要 清楚 其 所 依赖 的 组 
件 可 能 出 现 故 障 的 方式 ， 组 件 应 当 能 适当 地 处 理 每 个 故障 。 

并 发 性 : 分 布 式 系统 中 多 个 用 户 的 存在 是 对 资源 产生 并 发 请 求 的 根源 。 每 个 资源 必须 被 设计 
成 在 并 发 环境 中 是 安全 的 。 

延明 性 : 此 特性 能 够 保证 分 布 的 某 些 方面 对 应 用 程序 员 不 可 见 ， 这 样 应 用 程序 员 只 需要 关心 
特定 应 用 的 设计 问题 。 例 如 ， 程 序 员 不 需要 关心 特定 应 用 的 位 置 或 操作 如 何 被 其 他 组 件 访问 等 细 
节 和 问题， 或 它 是 否 被 复制 或 迁移 。 其 至 网 络 和 进程 故障 也 可 以 以 异常 的 形式 (但 异常 必须 被 处 理 ) 
虽 现 给 应 用 程序 员 。 
练习 
1.1 列 出 能 被 共享 的 五 种 类 型 的 硬件 资源 和 五 种 类 型 的 数据 或 软件 资源 ， 并 举 出 它们 在 实际 的 分 

布 式 系统 中 发 生 共享 的 例子 。 (第 2 页 ， 第 7 一 9 页 ) 9 
1.2 在 不 参考 外 部 时 间 源 的 情况 下 ， 通 过 本 地 网 络 连接 的 两 台 计算 机 的 时 钟 如 何 同步 ? 什么 因素 

限制 了 你 找 述 的 过 程 的 准确 性 ? 由 因特网 连接 的 大 量 的 计算 机 的 时 钟 是 如 何 同步 的 ?讨论 访 

过 程 的 准确 性 。 (第 2 页 ) 
1.3 一 个 用 户 随身 携带 能 无 线 连 网 的 PDA， 来 到 一 个 从 没有 到 过 的 火车 站 。 请 给 出 建议 ,在 用 户 

不 输入 火车 站 的 名 字 或 属性 的 情况 下 ， 如 何 得 到 关于 本 地 服务 和 火车 站 环境 的 情况 ? 要 克服 


哪些 技术 问题 ? (第 6 页 ) 
1.4 作为 信息 浏览 的 核心 技术 ，HTML、URL 和 HTTP 各 自 的 优势 和 不 足 是 什么 ?这 些 技术 是 否 适 
合作 为 客户 一 服务 器 计算 的 基础 ? (第 9 页 ) 


1.5 用 万 维 网 作 例子 说 明 资 源 共 享 、 客 户 和 服务 器 的 概念 。 
万 维 网 的 资源 和 其 他 服务 用 URL 命 名 ， 缩 略语 URL 是 指 什么 ?给 出 能 用 URL 命 名 的 三 种 不 同 
的 web 资 源 例子 。 (第 7 页 ) 
1.6 给 出 一 个 HTTP URL 的 例子 。 
列 出 HTTP URL 的 主要 成 分 ， 叙 述 各 个 成 分 是 如 何 表示 的 ， 并 用 例子 说 明 每 个 成 分 。 在 什么 程 
度 上 上 URL 是 位 置 透明 的 ? (第 7 页 ) 
1.7 用 一 种 程序 设计 语言 (例如 C++) 编写 的 一 个 服务 器 程序 提供 了 一 个 BLOB 对 象 的 实现 ， 该 对 
包月 于 被 丰 同 证 和 (例如 Java) 的 客户 访问 。 客 户 计算 机 和 服务 器 计算 机 可 以 有 不 同 的 
硬件 ， 但 它们 都 连 到 企业 内 部 网 上 。 要 使 得 -一 个 客户 对 象 调用 服务 器 对 象 上 的 方法 ， 请 描述 
由 于 异 构 性 的 五 个 方面 所 带 来 的 需要 解决 的 问题 。 (第 16 页 ) 
1.8 一 个 开放 的 分 布 式 系 统 允 许 添加 新 的 资源 共享 服务 (如 练习 1.7 中 的 BLOB 对 象 ) 并 被 多 种 客 
户 程序 访问 。 讨 论 在 这 个 例子 中 ， 开 放 性 的 需求 与 异 构 性 的 需求 在 什么 范围 内 有 不 同 。 


(第 17 页 ) 





加 ”本 节 引 题 中 的 页 码 为 英文 原 蔬 页 码 ， 即 书 中 边栏 标注 的 页 码 。 
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1.9 假设 BLOB 对 象 的 操作 分 成 两 类 一 一 用 于 所 有 用 户 的 公共 操作 和 只 用 于 某 些 命名 用 户 的 受 保护 
操作 。 和 叙述 为 确保 只 有 命名 用 户 能 使 用 保护 操作 所 涉及 的 所 有 问题 。 假 设 访问 一 个 保护 操作 
提供 了 不 能 对 所 有 的 用 户 公 开 的 信息 ， 那 么 会 引起 什么 问题 ? (第 18 页 ) 

1.10 INFO 服 务 管理 一 个 可 能 非常 大 的 资源 集 ， 用 户 能 通过 因特网 利用 关键 字 (一 个 字符 串 名 字 ) 
访问 这 些 资源 。 讨 论 资源 名 字 的 设计 方法 ， 使 得 在 服务 中 的 资源 数量 增加 时 性 能 的 损失 最 小 。 


对 INFO 服 务 的 实现 提出 建议 ， 以 避免 在 用 户 数量 变 得 很 大 时 性 能 出 现 瓶 颈 。 (第 19 页 ) 
1.11 列 出 在 客户 进程 调用 服务 器 对 象 的 方法 时 可 能 出 现 故障 的 三 个 主要 的 软件 组 件 ， 每 一 种 情况 
给 出 一 个 故障 例子 。 对 组 件 的 设计 给 出 建议 ， 使 得 它 能 容忍 彼此 的 故障 。 (第 21 页 ) 


1.12 一 个 服务 器 进程 维护 一 个 共享 的 信息 对 象 《如 练习 1.7 中 的 BLOB 对 象 ) 。 讨 论 是 否 允 许 客户 

请 求 在 服务 器 上 并 发 执行 。 在 它们 并 发 执行 时 ， 给 出 可 能 在 不 同 客户 操作 之 间 发 生 “ 干 扰 ” 

的 例子 ， 说 明 如 何 避 免 这 种 干扰 。 (第 23 页 ) 

1.13 一 个 服务 由 几 个 服务 器 实现 ， 试 解释 为 什么 资源 能 在 它们 之 间 传 输 。 要 实现 客户 的 移动 透明 

性 , 采用 客户 组 播 所 有 的 请 求 到 服务 器 组 是 否 能 获得 满意 的 效果 ? (第 23 页 ) 





第 2 章 系统 模型 


分 布 式 系统 的 体系 结构 模型 涉及 系统 各 个 部 分 的 位 置 和 它们 之 间 的 关系 。 体 系 结构 模型 的 例 
子 包括 客户 一 服务 器 模型 和 对 等 进程 模型 。 客 户 一 服务 器 模型 可 以 通过 以 下 方式 进行 修改 ， 

* 在 合作 的 服务 器 上 进行 数据 分 区 或 复制 。 

。 由 代理 服务 器 和 客户 进行 数据 缓存 。 

“使 用 移动 代码 和 移动 代理 。 

* 以 便捷 的 方式 增加 或 去 除 移动 设备 的 需求 。 

基础 模型 涉及 对 所 有 体系 结构 模型 中 公共 属性 的 一 种 更 为 形式 化 的 描述 。 

在 分 布 式 系统 中 没有 全 局 时 间 ， 所 以 不 同 计算 机 上 的 时 钟 不 必 给 出 相同 的 时 间 。 进 程 间 的 所 
有 通信 是 通过 消息 完成 的 。 计 算 机 网 络 上 的 消息 通信 会 受 延 迟 的 影响 ， 会 遇 到 多 种 故障 ， 对 安全 
方面 的 攻击 很 脆弱 。 这 些 问 题 可 通过 下 面 三 个 模型 解决 : 

“交互 模型 处 理 分 布 式 系统 的 性 能 问题 并 解决 在 分 布 式 系统 中 设置 时 间 限 制 的 难题 ， 例 如 解决 

消息 传送 问题 。 

“故障 模型 试图 给 出 进程 和 通信 通道 故障 的 一 个 精确 的 规约 。 它 定义 了 可 靠 的 通信 和 正确 的 

进程 。 

“安全 模型 讨论 了 对 进程 和 通信 通道 的 各 种 可 能 的 威胁 。 它 引入 了 安全 通道 的 概念 ， 安 全 通道 

能 保证 在 上 述 威 胁 下 通信 的 安全 。 


2.1 简介 


打算 要 在 实际 环境 中 使 用 的 系统 应 该 在 各 种 可 能 的 环境 下 ， 面 对 各 种 困难 和 潜在 的 威胁 (后 
面 的 “分 布 式 系统 的 困难 和 威胁 ”部 分 将 给 出 一 些 例子 ) 时 ， 保 证 其 功能 的 正确 性 。 第 1 章 的 讨论 
和 例子 表明 不 同类 型 的 分 布 式 系统 共享 重要 的 基本 特性 ， 也 出 现 了 公共 的 设计 问题 。 本 章 以 描述 
型 模型 的 形式 给 出 分 布 式 系统 的 公共 特性 和 设计 问题 。 每 个 模型 试图 对 分 布 式 系统 设计 的 一 个 相 
关 方 面 给 出 抽象 、 简 化 但 一 致 的 描述 。 

体系 结构 模型 定义 了 系统 中 组 件 之 间 的 交互 方式 和 它们 映射 到 计算 机 基础 网 络 的 方式 。2.2 节 
将 介绍 分 布 式 系 统 软件 的 分 层 结构 和 决定 组 件 位 置 和 交互 的 主要 体系 结构 模型 。 我 们 讨论 客户 一 
服务 器 模型 的 变 体 包括 它们 是 因为 使 用 了 移动 代码 ) ， 接 着 考虑 便于 增加 、 去 除 移动 设备 的 分 布 
式 系统 特征 ， 最 后 我 们 看 一 下 分 布 式 系统 的 一 般 设计 需求 。 

2.3 节 介绍 三 个 基础 模型 ， 用 于 为 分 布 式 系统 设计 者 揭示 若干 关键 问题 。 其 目标 是 指出 开发 正 
确 、 可 靠 、 安 全 地 执行 任务 的 分 布 式 系统 必须 要 解决 的 设计 问题 、 困 难 和 威胁 。 这 些 基 础 模型 对 
影响 分 布 式 系统 的 可 依赖 性 〈 包 括 正确 性 、 可 靠 性 和 安全 性 ) 特征 提供 了 抽象 的 描述 。 





分 布 式 系统 的 困难 和 威胁 ”下面 是 分 布 式 系统 设计 者 要 面 对 的 一 些 问题 ， 

使 用 模式 的 多 样 性 : 系统 的 组 件 会 承受 各 种 工作 负载 ， 例 如 ， 有 些 Web 页 面 每 天 会 有 几 百 
万 次 的 访问 量 。 系 统 的 有 些 部 分 可 能 断 线 或 连接 不 稳定 ， 例 如 ， 当 系统 中 包括 移动 计算 机 时 。 
一 些 应 用 对 通信 带宽 和 延迟 有 特殊 的 需求 ， 例 如 ， 多 媒体 应 用 。 

系统 环境 的 多 样 性 : 分 布 式 系统 必须 能 容纳 异 构 的 硬件 、 操 作 系 统 和 网 络 。 网 络 可 能 在 性 
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能 上 有 很 大 不 同 ， 如 无 线 网 的 速度 只 达到 局 域 网 的 几 分 之 一 。 必 须 支 持 不 同 规模 的 系统 ， 从 几 
十 台 计算 机 到 上 百 万 台 计 算 机 。 

内 部 问题 : 包括 非 同 步 的 时 钟 、 冲 突 的 数据 更 新 、 多 种 涉及 系统 单个 组 件 的 软 硬 件 故障 
模式 。 
外 部 威胁 : 包括 对 数据 完整 性 、 保 密 性 的 攻击 以 及 服务 拒绝 。 


2.2 体系 结构 模型 


一 个 系统 的 体系 结构 是 用 指定 组 件 表示 的 结构 。 整 体 目 标 是 确保 结构 能 满足 现在 和 将 来 可 能 
的 需求 。 主 要 关心 的 是 系统 可 靠 性 、 可 管理 性 、 适 应 性 和 性 价 比 。 建 筑 物 的 体系 结构 设计 有 类 似 
的 方面 ， 不 仅 要 决定 它 的 外 观 ， 而 且 它 的 总 体 结构 和 体系 结构 风格 ( 哥 特 式 、 新 古典 式 、 现 代 式 ) 
为 设计 提供 了 一 个 一 致 的 参考 框架 。 

本 节 将 描述 分 布 式 系统 采用 的 几 种 主要 的 体系 结构 模型 ， 即 分 布 式 系统 的 体系 结构 风格 。 我 
们 将 围绕 第 1 章 中 介绍 的 对 象 和 进程 的 概念 建立 体系 结构 模型 。 一 个 分 布 式 系 统 的 体系 结构 模型 首 
先 将 简化 和 抽象 分 布 式 系 统 单个 组 件 的 功能 ， 然 后 考虑 : 

“组 件 在 计算 机 网 络 上 的 放置 一 一 为 数据 和 负载 分 布 定义 有 用 的 模式 。 

“组 件 之 间 的 关系 一 一 就 是 组 件 的 功能 角色 和 组 件 之 间 通 信 的 模式 。 

最 初 的 简化 是 将 进程 分 成 服务 器 进程 、 客 户 进程 和 对 等 进程 来 完成 的 ， 对 等 进程 是 以 对 称 方 
式 进 行 协作 和 通信 以 完成 任务 的 进程 。 进 程 分 类 用 于 确定 每 个 进程 的 责任 ， 因 此 ， 有 助 于 我 们 评 
佑 它们 的 负载 ， 并 决定 每 个 进程 出 现 故 障 可 能 造成 的 影响 。 分 析 的 结果 可 用 于 指定 进程 的 放置 方 
式 ， 使 得 进程 的 分 布 能 满足 目标 系统 的 性 能 和 可 靠 性 要 求 。 

一 些 更 为 动态 的 系统 可 作为 客户 一 服务 器 模型 的 变 体 而 创建 ; 

“ 将 代码 从 一 个 进程 移动 到 另 一 个 进程 的 可 能 性 使 得 一 个 进程 将 任务 委托 另 一 个 进程 也 成 为 可 

能 。 例 如 ， 客 户 可 以 从 服务 器 下 载 代码 ， 并 在 本 地 运行 。 可 以 移动 对 象 和 访问 对 象 的 代码 以 

减少 访问 延迟 并 将 通信 流量 降 至 最 低 。 

“ 一些 分 布 式 系统 具有 无 颖 地 增加 或 去 除 计算 机 和 其 他 移动 设备 ， 人 允许 它们 发 现 可 用 的 服务 ， 

为 其 他 服务 提供 它们 自己 的 服务 的 功能 。 

已 有 几 个 广泛 使 用 的 用 于 分 布 式 系统 的 工作 分 配 的 模式 ， 它 们 对 目标 系统 的 性 能 和 有 效 性 
有 巨大 的 影响 。 在 计算 机 网 络 中 组 成 分 布 式 系统 的 进程 的 实际 分 配 也 受 性 能 、 可 靠 性 、 安 全 性 
和 人 性价比 方面 的 许多 问题 的 影响 。 此 处 描述 的 体系 结构 模型 仅 提供 重要 的 分 布 模式 的 一 个 简化 
的 观点 。 


2.2.1 软件 层 


术语 软件 体系 结构 原 指 在 一 个 计算 机 里 软件 的 分 
层 或 模块 结构 ， 近 来 更 多 地 指 同一 计算 机 或 不 同 计算 
机 上 进程 之 间 请 求 和 提供 的 服务 。 这 个 面向 进程 和 面 
向 服务 的 观点 可 以 用 服务 层 表 达 。 图 2-1 表 达 了 这 个 观 
点 ， 详 细 的 解释 见 第 3 章 到 第 6 章 。 服 务 器 是 一 个 接收 
其 他 进程 请 求 的 进程 。 一 个 分 布 式 服务 可 由 一 个 或 多 
个 服务 器 进程 提供 ， 这 些 进 程 相互 交互 ， 并 与 客户 进 
程 交 互 ， 维 护 该 服务 中 的 资源 在 系统 范围 内 的 一 致 视 
图 。 例如， 在 因特网 上 基于 网 络 时 间 协 议 (NTP) 可 实 





图 2-1 分 布 式 系统 中 的 软件 和 硬件 服务 层 
现 一 个 网 络 时 间 服 务 ， 其 中 运行 在 主机 上 的 服务 器 进程 给 任 一 发 出 请 求 的 客户 提供 当前 的 时 间 ， 
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作为 与 服务 器 交互 的 结果 ， 客 户 调整 它们 的 当前 时 间 。 

图 2-151 入 了 重要 的 术语 平台 和 中 间 件 ， 具 体 定义 见 如 下 描述 ; 

平台 最 底层 的 硬件 和 软件 层 通 常 称 为 分 布 式 系 统 和 应 用 的 平台 。 这 些 底层 给 上 野 提供 服务 ， 
它们 在 每 个 计算 机 中 都 是 独立 实现 的 ， 它 们 提供 系统 的 编程 接口 ， 方 便 进程 之 间 的 通信 和 和 协调 。 
主要 的 例子 有 intel x86/Windows、Intel x86/Solaris、PowerPC/MacOS 、Intel x86/Linux 。 

中 间 件 ”1.4.1 节 把 中 间 件 定义 成 一 个 软件 层 ， 它 的 目的 是 屏 项 异 构 性 ， 给 应 用 程序 员 提 供 方 
便 的 编程 模型 。 中 间 件 表示 成 一 组 计算 机 上 的 进程 或 对 象 ， 这 些 进程 或 对 象 相互 交互 ， 实 现 分 布 
式 应 用 的 通信 和 资源 共享 支持 。 中 间 件 提供 有 用 的 构造 模块 ， 构 造 在 分 布 式 系统 中 一 起 工作 的 软 
件 组 件 。 特 别 地 ， 它 通过 对 抽象 的 支持 ， 如 远程 方法 调用 、 进 程 组 之 间 的 通信 、 事 件 的 通知 、 共 
享 数据 对 象 在 多 个 协作 的 计算 机 上 的 分 布 、 放 置 和 检索 、 共 享 数据 的 复制 、 多 媒体 数据 的 实时 传 
送 ， 提 高 了 应 用 程序 通信 活动 的 层次 。 第 4 章 将 介绍 组 通信 、 第 12 章 和 15 章 还 有 详细 的 讨论 、 第 5 
章 描 述 事件 通知 。 第 10 章 描述 在 多 个 计算 机 上 共享 大 量 数据 对 象 的 方法 。 第 15 章 讨论 数据 复制 ， 
多 媒体 系统 见 第 17 章 。 
早期 的 中 间 件 实例 有 远程 过 程 调用 包 (如 Sun RPC， 见 第 5 章 ) 和 组 通信 系统 (如 Isis， 见 第 15 
目前 ， 广 泛 使 用 面向 对 象 中 间 件 产品 和 标准 ， 它 们 包括 : 
es。 CORBA 
° Java RMI 
。Web 服务 
。Microsoft 的 分 布 式 组 件 对 象 模型 (DCOM) 

* ISOATU-T 的 开放 分 布 式 处 理 参 考 模型 (RM-ODP) 
Java RMI、Web 服 务 和 CORBA 的 详细 内 容 见 第 5 章 、 第 19 章 和 第 20 章 ，DCOM 和 RM-ODP 的 
介绍 可 参 见 Redmond[1997] 及 Blair 和 Stefanif1997]。 

中 间 件 还 能 提供 应 用 程序 使 用 的 服务 。 这 些 服务 是 基础 服务 ， 与 中 间 件 提供 的 分 布 式 编程 模 
型 紧密 绑 定 。 例 如 ，CORBA 具 有 许多 给 应 用 提供 方便 的 服务 ， 如 命名 、 安 人 全、 事务、 永久 存储 和 
事件 通知 。 第 20 章 将 讨论 一 些 CORBA 服 务 。 图 2-1 顶 层 的 服务 是 特定 领域 的 服务 ， 它 利用 了 中 间 件 
的 通信 和 中 间 件 自己 的 服务 。 

中 间 件 的 限制 : 许多 分 布 式 应 用 完全 依赖 于 可 用 的 中 间 件 提供 的 服务 ， 以 支持 它们 在 通信 和 
数据 共享 方面 的 要 求 。 例 如 ， 适 合 客户 一 服务 器 模型 的 应 用 (如 一 个 名 字 和 地 址 的 数据 库 ) 可 以 
依赖 只 提供 远程 方法 调用 的 中 间 件 。 

通过 利用 中 间 件 功能 ， 在 简化 分 布 式 系统 编程 方面 已 经 获得 成 效 ， 但 在 系统 可 依赖 性 的 一 些 
方面 需要 应 用 层 的 支持 。 

考虑 大 的 电子 邮件 消息 从 发 送 方 的 邮件 主机 传递 到 接收 方 的 邮件 主机 的 问题 。 告 一 看 这 是 一 
个 TCP 数 据 传 送 协 议 的 简单 应 用 〈 见 第 3 章 的 讨论 ) 。 但 考虑 下 面 这 个 问题 : 用 户 试图 在 一 个 可 能 不 
可 靠 的 网 络 上 传递 一 个 非常 大 的 文件 。TCP 提 供 了 一 定 程度 的 错误 检测 和 错误 纠正 ， 但 它 不 能 从 严 
重 的 网 络 中 断 中 恢复 。 另 外 ， 邮 件 传递 服务 增加 了 另 一 层 容错 ， 用 来 维护 进度 记录 ， 如 果 原 来 的 
连接 断 开 ， 就 利用 一 个 新 的 TCP 连 接续 传 。 

Saltzer，Reed 和 Clarke 的 一 篇 经 典 论文 [Saltzer et al. 1984] 对 分 布 式 系统 的 设计 给 出 了 类 似 的 
有 价值 的 观点 ， 他 们 称 为 “ 端 对 端的 争论 "。 可 将 他 们 的 陈述 表述 为 ， 

只 依靠 通信 系统 终点 的 应 用 的 帮助 和 应 用 系统 提供 的 知识 ， 就 能 完整 、 可 靠 地 实现 一 些 与 通 
信和 相关 的 功能 。 因 此 将 这 些 功 能 做 为 通信 系统 的 特征 不 总 是 明智 的 。( 由 通信 系 统 提 供 一 个 不 完全 
版 本 的 功能 有 时 对 性 能 提高 是 有 用 的 。) 

可 以 看 出 他 们 的 论点 与 通过 引入 适当 的 中 间 件 层 将 所 有 通信 活动 从 应 用 编程 中 抽象 出 来 的 观 
点 是 相反 的 。 


章 )。 
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争论 的 关键 是 分 布 式 程序 正确 的 行为 在 很 多 层面 上 依赖 检查 、 错 误 校正 机 制 和 安全 手段 ， 其 
中 有 些 要 访问 应 用 地 址 空间 的 数据 。 任 何 企图 在 通信 系统 中 单独 完成 的 检查 将 只 能 保证 部 分 正确 
性 。 因 此 ， 可 能 在 应 用 程序 中 重复 同样 的 任务 ， 降 低 了 编程 效率 ， 更 重要 的 是 增加 了 不 必要 的 复 
杂 性 并 要 执行 元 余 的 计算 。 

本 书 没有 进一步 介绍 “争论 ”的 细节 ， 强 烈 推荐 读者 阅读 前 面 提 到 的 那 篇 论文 一 一 那里 有 许多 
说 明 的 实例 。 原 文 作者 之 一 最 近 指 出 争论 给 因特网 设计 带 来 的 实质 性 好 处 有 被 最 近 为 满足 当前 应 
用 需求 而 向 网 络 服务 专门 化 趋向 所 替代 的 危险 [www.reed.com]。 


2.2.2 系统 体系 结构 

谈 到 分 布 式 系 统 设 计 ， 人 们 可 能 最 先 想到 系统 组 件 (应 用 、 服 务 器 和 其 他 进程 ) 之 间 责 任 的 
划分 和 网 络 上 计算 机 组 件 的 放置 。 这 些 对 最 终 系统 的 性 能 、 可 靠 性 和 安全 性 有 较 大 的 影响 。 本 节 
给 出 主要 的 体系 结构 模型 ， 并 将 基于 这 些 模型 进行 责任 的 分 配 。 

在 分 布 式 系统 中 ， 具 有 明确 责任 的 进程 彼此 交互 ， 以 执行 有 用 的 活动 。 本 节 我 们 的 注意 力 将 
集中 在 进程 的 放置 上 ， 并 按 图 2-2 的 方式 给 出 计算 机 ( 黑 框 ) 中 进程 (椭圆) 的 部 署 。 我 们 使 用 术 
语 “ 调 用 ”和 “结果 ”来 标注 消息 (或 者 用 “请 求 ”和 “应 答 ” 标 注 )。 


Ge 和、 .调用 调用 六 服务 器 
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图 2-2 客户 调用 单个 服务 器 
图 2-2 和 图 2-3 给 出 了 两 种 主要 的 体系 结构 模型 ， 下 面 将 分 别 介绍 这 两 种 模型 。 
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图 2-3 基于 对 等 体系 结构 的 分 布 式 应 用 
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客户 一 服务 器 模型 这 是 讨论 分 布 式 系统 时 最 常 引 用 的 体系 结构 .过 去 它 是 最 重要 的 体系 结构 ， 
现在 仍 被 广泛 使 用 。 图 2-2 给 出 为 了 访问 服务 器 管理 的 共享 资源 ， 客 户 进程 与 在 单独 主机 上 的 一 个 
服务 器 进程 交互 的 简单 结构 。 

如 图 2-2 所 示 ， 一 台 服 务 器 也 可 以 是 其 他 服务 器 的 客户 。 例 如 ，Web 服 务 器 通常 是 管理 存储 
Web 页 面 文件 的 本 地 文件 服务 器 的 客户 。Web 服 务 器 和 大 多 数 其 他 因特网 服务 是 DNS 服务 的 客户 ， 
DNS 服务 用 于 将 因特网 域名 翻译 成 网 络 地 址 。 另 一 个 与 Web 相 关 的 例子 是 搜索 引 学 ， 搜 索引 擎 能 
让 用 户 通过 因特网 查找 web 页 面 上 可 用 的 信息 总 汇 。 这 些 信 息 汇 总 通过 称 为 “Web 蜂 蛛 ” 的 程序 形 
成 ， 该 程序 在 搜索 引擎 站 点 以 后 台 方 式 运行 ， 利 用 HTTP 请 求 访问 因特网 上 的 Web 服 务 器 。 因 此 ， 
搜索 引擎 既是 服务 器 又 是 客户 ; 它 回答 来 自 浏 览 器 客户 的 查询 ， 它 又 运行 作为 其 他 Web 服 务 器 客 
户 的 Web 蜘 蛛 程序 。 在 这 个 例子 中 ， 服 务 器 任务 (对 用 户 查询 的 回答 ) 和 Web 蜘 蛛 的 任务 (向 其 他 
Web 服 务 器 发 请 求 ) 是 完全 独立 的 ， 很 少 需要 同步 它们 ， 它 们 可 以 并 行 运行 。 事 实 上 ， 一 个 典型 
的 搜索 引擎 正常 情况 下 包含 许多 并 发 执行 的 线程 ， 一 些 线程 为 它 的 客户 服务 ， 另 一 些 进程 运行 
Web 蜂 蛛 程序 。 练 习 2.4 将 请 读者 考虑 这 种 类 型 的 并 发 搜索 引擎 会 出 现 的 同步 问题 。 

对 等 体系 结构 在 这 种 体系 结构 中 ， 一 项 任务 或 活动 涉及 所 有 的 进程 扮演 相同 的 角色 ， 作 为 对 
等 方 进行 协作 交互 ， 不 区 分 客户 和 服务 器 或 运行 它们 的 计算 机 。 虽 然 客户 一 服务 器 模型 为 数据 和 
其 他 资源 的 共享 提供 了 一 个 直接 和 相对 简单 的 方法 ， 但 客户 一 服务 器 模型 的 伸缩 性 比较 差 。 将 一 
个 服务 放 在 单个 进程 中 意味 着 集中 化 地 提供 服务 和 管理 ， 它 的 伸缩 性 不 会 超过 提供 服务 的 计算 机 
的 能 力 和 该 计算 机 所 在 网 络 连 接 的 带宽 。 

下 一 节 将 搞 述 客户 -服务 器 体系 结构 的 几 个 变 体 ， 它 们 的 出 现 就 是 为 了 应 对 上 述 问题 ， 但 它 
们 都 没有 解决 基本 问题 一 一 如 何 将 共享 资源 进行 更 广泛 地 分 布 ， 以 便 将 访问 资源 带 来 的 计算 和 通信 
负载 分 散 到 大 量 的 计算 机 和 网 络 链接 中 。 

今天 计算 机 具有 的 硬件 容量 和 操作 系统 功能 已 经 超过 了 昨天 的 服务 器 ， 而 且 大 多 数 计算 机 配 
备 有 随时 可 用 的 宽带 网 络 连接 。 对 等 体系 结构 的 目的 是 挖掘 大 量 参与 计算 机 中 的 资源 (数据 和 硬 
件 ) 来 完成 某 个 给 定 的 任务 或 活动 。 对 等 应 用 和 对 等 系统 已 经 被 成 功 地 构造 出 来 ， 使 得 无 数 计算 
机 能 访问 它们 共同 存储 和 管理 的 数据 及 其 他 和 资源。 最早 和 最 广为人知 的 系统 是 共享 数字 音乐 文件 
的 Napster 应 用 程序 。 虽 然 它 由 于 其 他 非 体系 结构 的 原因 而 变 得 声名 狼藉 ， 但 它 验证 了 对 等 系统 的 
可 行 性 ， 并 使 体系 结构 模型 向 多 个 有 价值 的 方向 发 展 。 

图 2-3 说 明了 对 等 应 用 的 形式 。 应 用 由 大 量 运行 在 独立 计算 机 上 的 对 等 进程 组 成 ， 进 程 之 间 的 
通信 模式 完全 依赖 于 应 用 的 需求 。 大 量 数据 对 象 被 共享 ， 单 个 计算 机 只 保存 一 部 分 的 应 用 数据 库 ， 
访问 对 象 的 存储 、 处 理 和 通信 和 负载 被 分 布 到 多 个 计算 机 和 网 络 连接 中 。 每 个 对 象 在 几 个 计算 机 中 
被 复制 ， 以 便 以 后 分 散 负载 并 在 某 个 计算 机 断 链 时 仍 能 正常 工作 (这 在 对 等 系统 针对 的 大 型 异 构 
网 络 中 是 不 可 避免 的 ) 。 在 众多 计算 机 上 放置 对 象 并 检索 它们 ， 同 时 维护 这 些 对 象 的 副本 ， 这 种 应 
用 需求 使 得 对 等 体系 结构 本 质 上 比 客户 服务 器 体系 结构 要 复杂 得 多 。 

对 等 应 用 的 开发 和 中 间 件 对 对 等 应 几 的 支持 将 在 第 10 章 中 深入 介绍 。 

2.2.3 变 体 

在 考虑 了 下 列 因素 后 ， 上 述 模型 能 派生 出 几 个 变 体 : 

*。 使 用 多 个 服务 器 和 缓存 ， 增 加 性 能 和 灵活 性 。 

* 使 用 移动 代码 和 移动 代理 。 

。 用 户 需要 硬件 资源 有 限 的 、 便 于 管理 的 低 价格 计算 机 。 

“能 方便 地 增加 和 删除 移动 设备 的 需求 。 

由 多 个 服务 器 提供 的 服务 服务 可 实现 成 在 一 个 单独 主机 上 的 几 个 服务 器 进程 ， 在 必要 时 进行 
交互 以 便 给 客户 进程 提供 服务 (参见 图 2-4) 。 服 务 器 可 以 将 服务 所 基于 的 对 象 集 分 区 ， 然 后 将 这 些 
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分 区 分 布 到 各 个 服务 器 上 ， 或 者 服务 器 可 以 在 几 个 主机 上 维护 复制 的 对 象 集 。 这 两 种 选择 可 用 下 
列 例子 说 明 。 











一 | 
wD 


LG 


图 2-4 由 多 个 服务 器 提供 的 服务 


Web 就 是 一 个 常见 的 将 数据 分 区 的 例子 ， 其 中 的 每 个 Web 服 务 器 管理 它 自 己 的 资源 集 。 用 户 可 
以 利用 浏览 器 访 疝 任 一 个 服务 器 上 的 资源 。 

一 个 基于 复制 数据 的 服务 是 Sun NIS (网 络 信息 服务 )。 在 用 户 登录 时 ，LAN 中 的 计算 机 使 用 
该 服务 。 每 个 NIS 服 务 器 有 它 自己 的 口令 文件 副本 ,该 副本 记录 了 用 户 登 录 名 和 加 密 的 口令 清单 。 
第 15 章 将 详细 讨论 复制 技术 。 

多 服务 器 体系 结构 中 紧 耦 合 程度 更 高 的 是 集群 ， 它 用 于 扩展 性 更 高 的 Web 服 务 ， 如 搜索 引擎 
和 在 线 商店 。 一 个 集群 最 多 可 用 数 以 千 计 的 商用 处 理 主板 构成 ( 见 6.4.2 节 )。 可 在 这 些 主板 上 对 服 
务 处 理 进行 分 区 或 复制 。 

代理 服务 器 和 缓存 ”缓存 用 于 存储 最 近 使 用 的 数据 对 象 。 当 计算 机 接收 到 一 个 新 的 对 象 ， 它 就 
被 存 和 缓存， 必要 的 时 候 会 替换 缓存 中 已 存在 的 对 象 。 当 客户 进程 需要 一 个 对 象 时 ， 缓 存 服务 首先 
检查 缓存 ， 如 果 缓 存 中 有 最 新 的 拷贝 可 用 就 提供 缓存 中 的 对 象 ， 如 果 缓 存 没有 可 用 的 对 象 ， 才 去 取 
一 个 最 新 的 拷贝 。 每 个 客户 都 可 以 配置 缓存 或 者 将 缓存 放置 在 由 几 个 客户 共享 的 代理 服务 器 上 。 

缓存 在 实际 工作 中 被 广泛 使 用 。Web 浏 览 器 维护 一 个 缓存 ， 它 在 客户 本 地 的 文件 系统 中 存放 
最 近 访 问 的 Web 页 面 和 其 他 Web 资 源 ， 并 在 显示 前 用 一 个 特殊 的 HTTP 请 求 到 原来 的 服务 器 上 检查 
被 缓存 的 页 面 是 否 是 最 新 的 。Web 代 理 服务 器 ( 见 图 2-5) 为 一 个 地 点 或 多 个 地 点 的 客户 机 提供 共 
享 的 存放 Web 资 源 的 缓存 。 代 理 服务 器 的 目的 是 通过 减少 广域网 和 Web 服 务 器 的 负载 ， 提 高 服务 的 
可 用 性 和 性 能 。 代 理 服务 器 能 承担 其 他 角色 ， 例 如 它们 可 以 用 于 通过 防火 墙 访问 远程 Web 服 务 器 。 


四 > Ye ~ “Web 
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图 2-5 Web 代 理 服 务 器 


移动 代码 第 ! 章 介绍 了 移动 代码 。applet 是 一 个 众所周知 的 并 被 广泛 使 用 的 移动 代码 例子 ， 即 
运行 浏览 器 的 用 户 选择 了 一 个 到 一 个 applet 的 链接 ，applet 的 代码 存储 在 Web 服 务 器 上 ，applet 的 代 
码 下 载 到 浏览 器 并 在 浏览 器 端 运行 ， 见 图 2-6。 在 本 地 运行 下 载 的 代码 的 好 处 是 能 够 提供 良好 的 交 
互 响应 ， 因 为 它 不 受 与 网 络 通信 相关 的 延迟 或 带宽 变化 的 影响 。 
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applet 代码 服务 器 


a) 客户 请 求 导致 applet 代 码 的 下 载 


Web 
客户 < ome) 服务 器 


b) 客户 与 applet 交 互 








图 2-6 Web applets 


访问 服务 意味 着 运行 能 调用 服务 所 提供 的 操作 的 代码 。 一 些 服务 可 能 进行 了 标准 化 ， 所 以 能 
用 一 个 已 有 的 且 众 所 周知 的 应 用 访 间 它们 一 一 Web 就 是 一 个 大 家 很 熟悉 的 例子 ， 但 有 些 Web 站 点 使 
用 了 在 标准 浏览 器 中 找 不 到 的 功能 ， 还 要 求 下 载 额 外 的 代码 。 例 如 ， 用 额外 的 代码 与 服务 器 通信 。 
考虑 一 个 应 用 ， 该 应 用 要 求 用 户 应 该 与 发 生 在 服务 器 信息 源 端 的 变化 保持 一 致 。 这 一 功能 不 能 通 
过 与 Web 服 务 器 的 正常 交互 获得 ， 因 为 那 种 交互 总 是 由 客户 发 起 。 解 决 方案 是 使 用 另外 一 种 称 为 
按 推 模式 操作 的 软件 ， 在 这 种 方式 下 由 服务 器 而 不 是 客户 发 起 交互 。 
例如 ， 股 票 经 纪 人 可 能 提供 一 个 定制 的 服务 通知 顾客 股票 价格 的 变动 。 为 了 使 用 这 个 服务 ， 
每 个 顾客 要 下 载 一 个 特殊 的 能 接收 来 自 经 纪 人 服务 器 的 更 新 的 applet， 该 applet 可 向 用 户 显示 更 新 ， 
还 可 能 自动 地 完成 买卖 操作 ， 这 些 操作 是 根据 顾客 设置 的 、 存 储 在 顾客 本 地 计算 机 上 的 条 件 而 触 
发 的 。 
第 1 章 提 到 ， 移 动 代码 对 目的 计算 机 中 的 本 地 而 言 资源 是 一 个 潜在 的 安全 威胁 。 因 此 ， 浏 览 器 
采用 7.1.1 节 讨论 的 方案 对 applet 访 问 本 地 资源 进行 了 限制 。 
移动 代理 ”移动 代理 是 一 个 运行 的 程序 (包括 代码 和 数据 ) ， 它 从 一 台 计 算 机 移动 到 网 络 上 的 
一 台 计 算 机 ， 代 表 某 人 完成 诸如 信息 搜集 之 类 的 任务 ， 最 后 返回 结果 。 一 个 移动 代理 可 能 多 次 
调用 所 访问 地 点 的 本 地 资源 一 一 例如 ， 访 问 一 个 数据 库 条 目 。 如 果 将 这 种 体系 结构 与 对 某 些 资源 进 
行 远程 调用 的 静态 客户 相 比 ， 那 么 后 者 可 能 会 传输 大 量 的 数据 ， 前 者 通过 用 本 地 调用 替换 远程 调 
用 而 降低 了 通信 开销 和 时 间 。 
移动 代理 可 用 于 安装 和 维护 一 个 组 织 内 部 的 计算 机 软件 或 通过 访问 每 个 销售 商 的 站 点 并 执行 
一 系列 数据 库 操作 ， 来 比较 多 个 销售 商 的 产品 价格 。 类 似 想法 的 一 个 早期 例子 是 在 Xerox PARC 开 
发 的 所 谓 的 蠕虫 程序 [Shoch and Hupp 1982]， 该 程序 利用 空闲 的 计算 机 完成 密集 型 计算 。 
移动 代理 〈 和 移动 代码 一 样 ) 对 所 访问 的 计算 机 上 的 资源 而 言 是 一 个 六 在 的 安全 威胁 。 接 收 
一 个 移动 代理 的 环境 应 该 根据 代理 所 代表 的 用 户 的 身份 决定 允许 使 用 哪些 本 地 资源 一 一 它们 的 身份 
必须 以 安全 的 方式 包括 在 移动 代理 的 代码 和 数据 中 。 另 外 ， 移 动 代理 自身 是 脆弱 的 一 如果 它们 访 
问 所 需 的 信息 的 要 求 被 拒绝 ， 那 么 它们 可 能 完 不 成 任务 。 由 移动 代理 完成 的 任务 可 以 通过 其 他 手 
段 完 成 。 例 如 ， 需 要 通过 因特网 访问 Web 服 务 器 上 资源 的 Web 果 蛛 程序 可 通过 远程 调用 服务 器 进程 
而 运行 得 相当 成 功 。 基 于 上 述 理由 ， 移 动 代 理 的 适用 性 是 有 限 的 。 
网 络 计 算 机 ”在 图 1-2 所 示 的 体系 结构 中 ， 应 用 在 用 户 本 地 的 计算 机 上 运行 。 计 算 机 的 操作 系 
统 和 应 用 软件 通常 要 求 大 多 数 可 运行 的 代码 和 数据 位 于 本 地 磁盘 上 ， 但 是 应 用 文件 的 管理 和 本 地 
软件 库 的 维护 所 要 求 的 技术 大 多 数 用 户 都 不 具备 。 
网 络 计算 机 提供 了 解决 这 个 问题 的 途径 。 它 能 从 远程 文件 服务 器 下 载 用 户 所 需 的 操作 系统 和 
任 一 应 用 软件 ， 应 用 可 在 本 地 运行 ， 但 文件 由 远程 文件 服务 器 管理 。 像 Web 浏 览 器 这 样 的 网 络 应 
用 也 能 运行 。 因 为 所 有 应 用 数据 和 代码 由 文件 服务 器 保存 ， 所 以 用 户 就 可 以 把 任务 从 一 台 网 络 计 
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算 机 迁移 到 另 一 台 网 络 计算 机 。 为 了 减少 开销 ， 对 网 络 计 算 机 的 处 理 器 和 内 存 容 量 进行 了 限制 。 

如 果 网 络 计算 机 有 硬盘 ， 那 它 可 以 只 保留 最 少 的 软件 ， 剩 余 的 磁盘 用 作 缓 看 看 储 ， 存 储 最 近 
从 服务 器 下 载 的 软件 和 数据 文件 的 拷贝 。 缓 存 的 维护 不 需要 手工 操作 : 当 文 件 的 一 个 新 版 本 写 人 
相关 的 服务 器 上 后 ， 被 缓存 的 对 象 就 会 失效 。 

瘦 客 户 ”术语 疼 客 户 指 的 是 一 个 软件 层 ， 在 执行 远程 计算 机 上 的 应 用 程序 时 ， 由 该 软件 层 在 用 
户 本 地 的 计算 机 上 支持 基于 窗口 的 用 户 界 面 (参见 图 2-7)。 该 体系 结构 与 网 络 计算 机 方案 一 样 ， 具 
有 管理 开销 和 硬件 开销 低 的 特点 ， 但 是 它 在 计算 服务 器 一 一 一 台 能 并 行 运行 大 量 应 用 的 计算 机 
上 运行 应 用 ， 而 不 是 下 载 应 用 代码 到 用 户 计算 机 上 。 通 常 ， 计 算 服务 器 是 一 个 多 处 理 器 或 集群 计 
算 机 ( 见 第 6 章 )， 运行 UNIX 或 Windows NT 等 的 多 处 理 器 版 本 的 操作 系统 。 








计算 服务 器 
络 计算 机 或 PC 












图 2-7 瘦 客 户 和 计算 服务 器 


瘦 客 户 体系 结构 的 主要 缺点 是 : 在 交互 频繁 的 图 形 活动 (如 CAD) 和 图 像 处 理 中 ， 用 户 感受 
到 的 延迟 ， 包 括 网 络 和 操作 系统 的 延迟 ， 会 因为 在 瘦 客 户 和 应 用 进程 之 间 传 输 图 像 和 向 量 信息 的 
需要 而 增加 。 

瘦 客 户 实现 ， 在 概念 上 瘦 客 户 系统 是 简单 的 ， 并 且 它 们 的 实现 在 某 些 环境 中 也 很 直观 。 例 如 ， 
大 多 数 UNIX 的 变 体 包 含 X-11 窗 口 系统 ， 见 后 文 “X-11 窗 口 系统 ”部 分 的 讨论 。 

为 了 说 明 客户 和 服务 器 之 间 的 边界 ， 需 要 在 图 形 操作 流水 线 中 列 出 支持 一 个 图 形 用 户 界面 的 
若干 要 素 。X-11 在 画 线 、 画 形状 和 窗口 处 理 的 图 形 原 语 层 实 现 了 这 个 边界 。Citrix 公 司 的 WinFrame 
产品 [www.citrix.com] 是 一 个 被 广泛 使 用 的 实现 了 瘦 客 户 概念 的 商业 产品 ， 它 以 类 似 的 方式 操作 ， 
该 产品 提供 一 个 瘦 客 户 进程 ， 该 进程 可 在 众多 平台 上 运行 、 支 持 对 Windows NT 主机 上 运行 的 应 用 
提供 交互 访问 的 桌面 系统 。 其 他 实现 包括 由 英国 Cambridge 的 AT&T 实 验 室 开发 的 虚拟 网 络 计算 机 
(VNC) 系统 [Richardson et al. 1998]。VNC 在 屏幕 像素 操作 的 层次 给 出 了 边界 ， 当 用 户 在 不 同 的 计 
算 机 间 移 动 时 为 他 们 维护 图 形 上 下 文 。 








X-11 窗 口 系统 ”X-11 窗 口 系统 [Scheifler and Gettys 1986] 是 一 个 进程 ， 管 理 运行 该 进程 的 
计算 机 上 的 显示 和 交互 输入 设备 (键盘 、 鼠 标 ) 。X-11 提 供 内 容 丰 富 的 过 程 库 (X-11 协 议 )， 
用 于 显示 和 修改 窗口 中 的 图 形 对 象 ， 以 及 创建 和 操纵 窗口 自身 。 

X-11 系 统 被 称 为 窗口 服务 器 进程 ，X-11 服 务 器 的 客户 是 用 户 当前 交互 的 应 用 程序 。 客 户 
程序 通过 调用 X-11 协 议 的 操作 与 服务 器 通信 ， 其 中 包括 在 窗口 中 写 文本 和 绘制 图 形 对 象 等 。 客 
户 不 需要 与 服务 器 在 同一 台 计 算 机 上 ， 因 为 服务 器 过 程 总 是 通过 RPC 机 制 调用 ， 因 此 X-11 窗 口 
服务 器 具有 瘦 客 户 的 关键 特性 。(X-11 颠 倒 了 客户 一 服务 器 术语 ，X-11 服 务 器 之 名 源 于 它 给 应 
用 程序 提供 的 图 形 显示 服务 ， 而 称 它 为 瘦 客 户 软件 是 从 使 用 运行 在 计算 服务 器 上 的 应 用 程序 的 
角度 来 说 的 。) 










移动 设备 和 自发 互 操作 ”我们 已 经 讨论 了 移动 代理 形式 的 软件 移动 性 ， 移 动 代理 是 在 物理 计算 
机 之 间 迁 移 。 与 之 相反 ， 移 动 设备 是 在 物理 位 置 之 间 移动 的 计算 组 件 的 硬件 ， 也 就 是 设备 带 着 软 
件 组 件 在 网 络 上 移动 。 像 第 1 章 解释 的 那样 ， 移 动 设备 的 数量 不 断 增长 ， 包 括 笔记 本 电脑 、 个 人 数 
字 助 理 (PDA) 之 类 的 手持 设备 、 移 动 电话 和 数码 相机 、 智 能 手表 之 类 的 可 穿戴 计算 机 等 。 这 些 





设备 多 数 具有 无 线 联 网 功能 ， 其 范围 为 一 个 国家 或 更 广 的 范围 (如 GSM 和 3G 电 信和 网 络 )， 范围 有 
几 百 米 ， 如 WiFi (IEEE 802.11) 或 几米 (如 蓝牙 )。 

设备 移动 性 可 推广 多 客户 一 服务 器 系统 。 客 户 和 服务 器 都 可 在 移动 设备 上 一 一 移动 客户 是 目前 
为 止 最 常见 的 情况 。 考虑 一 辆 环 游 世界 的 汽车 ， 在 WiFi 可 用 的 时 候 可 用 WiFi 连 接 ， 在 其 他 地 方 可 
用 低 带 宽广 域 电 信 连 接 。 乘 客 和 他 们 的 家 人 想 更 新 阅读 一 个 共享 的 Web 网 站 ， 该 网 站 包含 这 次 旅 
游 的 图 片 和 记录 。 实 现 该 目标 最 通用 的 方式 是 大 家 都 访问 一 个 固定 的 服务 器 ， 汽 车 乘客 上 传 数据 
并 从 移动 客户 端 读 取 数 据 。 另 一 种 方法 是 在 汽车 上 运行 Web 服 务 器 ， 这 样 服务 器 自身 是 移动 的 。 
服务 器 不 仅 提 供用 户 的 图 片 和 记录 ， 而 且 用 GPS (全 球 定位 系统 ) 接收 器 ， 服 务 器 能 提供 显示 汽车 
当前 位 置 的 地 图 [Kindberg etal 2002a]。 

移动 透明 性 ( 见 1.4.7 节 ) 是 移动 设备 经 常 面临 的 一 个 问题 ， 同 时 也 是 移动 代理 面临 的 问题 。 
例如 移动 服务 器 的 客户 (如 汽车 上 的 移动 客户 ) 不 必 清 楚 汽车 在 网 络 之 间 移 动 (即使 家 人 可 能 对 
汽车 的 地 理 位 置 感 兴趣 ， 而 汽车 的 位 置 可 以 显示 在 最 新 的 GPS 地 图 上 )。 第 3 章 讲述 的 移动 下 将 给 出 
一 个 解决 方案 ， 使 得 汽车 在 不 同 网 络 之 间 移 动 时 可 为 汽车 上 的 服务 器 保留 因特网 (IP) 地 址 ， 客 
户 能 使 用 永久 URL 访 问 汽车 上 的 服务 器 。 

变化 的 连接 性 是 另 一 个 重要 的 问题 ， 它 可 能 影响 汽车 作为 服务 器 的 能 力 和 乘客 访问 外 部 服务 
的 能 力 。 汽 车 在 穿越 无 线 屏 障 (如 隧道 ) 时 可 能 间歇 地 断 开 与 无 线 网 络 的 连接 ， 或 者 在 无 线 连接 
不 通 的 地 区 长 时 间 地 断 开 连 接 。 汽 车 在 WiFi 和 电信 连接 之 间 移 动 时 ， 会 经 历 非常 大 的 带宽 变化 。 
第 14 章 将 讨论 处 理 断 链 的 问题 。 第 16 章 将 讨论 适应 变化 带宽 的 问题 。 

最 后 ， 移 动 性 会 导致 自发 互 操作 ， 它 是 客户 一 服务 器 模型 的 一 个 变 体 ， 其 中 设备 之 间 的 关联 经 
常会 被 创建 和 删除 。 在 1.2.3 节 中 ， 我 们 描述 了 一 个 用 户 访问 一 个 组 织 ， 用 她 的 移动 设备 连接 东道 主 
的 设备 (如 打印 机 )。 类 似 地 ， 可 以 向 汽车 乘客 提供 与 汽车 所 经 过 的 物理 环境 集成 在 一 起 的 服务 ， 
例如 关于 当地 名 胜 的 信息 。 这 里 所 面临 的 挑战 是 要 使 得 互 操作 方便 快捷 ( 即 自发 )， 即 使 用 户 处 于 
她 以 前 从 来 没有 到 过 的 环境 也 是 如 此 。 这 需要 让 访问 者 的 设备 与 东道 主 网 络 通 信 ， 将 设备 与 适合 的 
本 地 服务 相关 联 一 -这 个 过 程 叫 服务 发 现 。 我 们 将 在 第 16 章 深入 探讨 自发 互 操作 和 移动 性 的 其 他 方 
面 。 第 16 章 也 涵盖 了 无 处 不 在 计算 的 相关 领域 ， 无 处 不 在 计算 强调 媒人 入 物理 世界 中 的 设备 (例如 传 
感 器 )， 而 上 下 文 感知 服务 是 依赖 于 物理 世界 状态 的 ， 例 如 显示 汽车 当前 位 置 的 地 图 。 

2.2.4 接口 和 对 象 

在 一 个 进程 (不 论 它 是 一 个 服务 器 进程 还 是 一 个 对 等 的 进程 ) 中 可 调用 的 功能 集合 由 一 个 或 
多 个 接口 定义 指定 。 接 口 定义 的 详细 描述 见 第 5 章 ， 但 是 这 个 概念 对 于 精通 Modula、C++ 或 Java 等 
语言 的 高 手 而 言 是 很 熟悉 的 。 在 客户 一 服务 器 体系 结构 的 基本 形式 中 ， 每 个 服务 器 进程 可 看 成 是 
一 个 具有 固定 接口 的 实体 ， 其 中 的 接口 定义 了 能 被 调用 的 功能 。 

用 面向 对 象 语言 ， 如 C++ 和 Java， 再 加 上 相应 的 支持 ， 分 布 式 处 理 能 以 更 面向 对 象 的 方式 构造 。 
许多 对 象 能 封装 在 服务 器 进程 中 ， 对 它们 的 引用 能 传递 到 其 他 进程 ， 这 样 它们 的 方法 能 被 远程 调 
用 访问 。CORBA 和 带 远 程 方法 调用 (RMI) 机 制 的 Java 采 用 了 这 种 方法 。 在 这 个 模型 中 ， 每 个 进 
程 具 有 的 对 象 的 数量 和 类 型 (在 支持 移动 代码 的 语言 中 ， 如 Java) 可 能 随 系统 活动 要 求 而 变化 ， 在 
一 些 实现 中 对 象 的 位 置 也 可 能 改变 。 

不 论 我 们 采用 静态 的 客户 一 服务 器 体系 结构 还 是 在 前 面 介绍 的 更 为 动态 的 面向 对 象 模 型 ， 进 
程 之 间 和 计算 机 之 间 责任 的 分 布 仍然 是 设计 中 一 个 重要 的 方面 。 在 传统 的 体系 结构 模型 中 ， 责 任 
是 静态 分 配 的 〈 例 如 ， 文 件 服务 器 只 负责 文件 ， 不 负责 web 页 面 、 它 们 的 代理 或 其 他 对 象 类 型 ) 。 
但 在 面向 对 象 模型 中 ， 新 的 服务 (在 某 些 情况 下 新 的 对 象 类 型 ) 能 被 实例 化 并 马上 可 供 调用 。 


2.2.5 分 布 式 体系 结构 的 设计 需求 
在 分 布 式 系统 中 触发 对 象 和 进程 分 布 的 因素 有 许多 ， 它 们 的 重要 性 不 可 小 讽 。20 世 纪 60 年 代 
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通过 使 用 共享 文件 ， 在 分 时 系统 中 第 一 次 实现 了 共享 。 共 享 的 好 处 马上 得 到 大 家 认可 ， 并 在 多 用 
户 操作 系统 (如 UNIX) 和 多 用 户 数据 库 系统 (如 Oracle) 中 采用 ， 以 启用 共享 系统 资源 和 设备 
(文件 存储 能 力 、 打 印 机 、 音 频 和 视频 流 ) 的 进程 和 共享 应 用 对 象 的 应 用 进程 。 

以 多 处 理 器 芯片 形式 出 现 的 廉价 的 计算 消除 了 共享 中 央 处 理 器 的 需要 ， 中 等 性 能 的 计算 机 网 
络 的 可 用 性 和 对 相对 昂贵 的 硬件 资源 (如 打印 机 和 磁盘 存储 ) 的 共享 要 求 导 致 了 20 世 纪 70 年 代 和 
80 年 代 分 布 式 系统 的 开发 。 今 天 ， 资 源 共享 被 认为 是 理所当然 的 。 但 大 规模 的 有 效 的 数据 共享 对 
我 们 而 言 仍 然 是 一 个 巨大 的 挑战 一 一 随 着 数据 变化 (大 多 数 数据 随时 间 变 化 ) ， 出 现 并 发 和 冲突 性 
更 新 的 概率 不 断 上 上 升 。 关 于 控制 共享 数据 的 并 发 更 新 是 第 13、14 章 的 主题 。 

性 能 问题 资源 分 布 所 带 来 的 挑战 远 远 不 止 是 需要 对 并 发 更 新 进行 管理 。 下 面 列 出 了 由 计算 机 
和 网 络 有 限 的 处 理 能 力 和 通信 能 力 所 带 来 的 性 能 问题 : 

响应 能 力 ， 交互 应 用 的 用 户 要 求 交 互 响应 快速 并 一 致 ， 但 客户 程序 需要 经 常 访问 共享 资源 。 
当 调 用 一 个 远程 服务 时 ， 响 应 速度 不 仅 由 服务 器 和 网 络 的 负载 及 性 能 决定 ， 还 由 所 有 涉及 的 软件 
组 件 一 一 包括 客户 和 服务 器 操作 系统 的 通信 ， 中 间 件 服务 (例如 ， 远 程 调用 支持 ) 以 及 实现 服务 的 
进程 代码 一 一 的 延迟 决定 。 

另外 ， 即 使 进程 在 同一 台 计 算 机 上 ， 它 们 之 间 的 数据 传递 和 相关 的 控制 转换 相对 还 是 较 慢 的 。 
为 了 获得 满意 的 交互 响应 时 间 ， 系 统 必须 由 相当 少 的 软件 层 组 成 ， 在 客户 和 服务 器 之 间 传 递 的 数 
据 量 必须 小 。 

这 些 问 题 可 通过 客户 浏览 Web 的 性 能 加 以 说 明 ， 此 时 ， 访 问 本 地 缓存 的 页 面 和 图 像 时 响应 速 
度 最 快 ， 因 为 它们 由 客户 应 用 保存 ， 访 问 远程 文本 页 面 的 速度 也 比较 快 ， 因 为 它们 的 数据 量 小 ， 
而 访问 图 像 会 有 较 长 的 延迟 ， 因 为 涉及 的 数据 量 大 。 

吞吐 量 : 计算 机 系统 性 能 的 一 个 传统 的 度量 是 吞吐 量 一 一 计算 工作 完成 的 比例 。 我 们 关心 分 布 
式 系统 为 它 的 所 有 用 户 完成 工作 的 能 力 。 这 种 能 力 受 客户 和 服务 器 的 处 理 速度 以 及 数据 传输 率 的 
影响 。 远 程 服务 器 上 的 数据 必须 经 过 两 个 计算 机 上 的 若干 个 软件 层 ， 从 服务 器 进程 传递 到 客户 进 
程 。 与 网 络 的 吞吐 量 一 样 ， 其 间 的 软件 层 的 吞吐 量 也 很 重要 。 

平衡 计算 负载 : 分 布 式 系统 的 一 个 目的 是 使 应 用 和 服务 进程 并 发 地 运行 而 不 必 竞 争 同一 资源 ， 
并 能 利用 可 用 的 计算 资源 (处理 器 、 内 存 和 网 络 能 力 )。 例 如 ， 在 客户 计算 机 上 运行 applet 的 能 力 
就 碱 轻 了 Web 服 务 器 的 负载 ， 使 得 服务 器 能 提供 更 好 的 服务 。 更 有 意义 的 例子 是 用 几 个 计算 机 实 
现 一 个 服务 ， 一 些 负 载 很 重 的 Web 服 务 器 (如 搜索 引擎 、 大 型 商业 网 站 ) 有 这 样 的 需求 。 它 利用 
了 DNS 域名 查找 服务 提供 的 设施 ， 为 一 个 域名 返回 儿 个 主机 地 址 中 的 一 个 〈 见 9.2.3 节 ) 。 

在 某 些 情 况 下 ， 主 机 上 的 负载 变化 时 负载 平衡 可 能 要 移动 部 分 完成 的 工作 。 这 要 求 系统 能 支 
持 运行 进程 在 计算 机 之 间 移 动 。 

服务 质量 ”一旦 提供 给 用 户 所 要 求 的 服务 功能 (如 分 布 式 系统 中 的 文件 服务 ) ， 那 么 用 户 就 会 
继续 关心 所 提供 服务 的 质量 。 影 响 客户 和 用 户 所 感知 的 服务 质量 的 系统 的 主要 非 功能 性 特征 是 可 
靠 性 、 安 全 性 和 性 能 。 满 足 变化 的 系统 配置 和 资源 可 用 性 的 适应 性 已 被 认为 是 服务 质量 的 一 个 重 
要 的 方面 。Birman 一 直 在 探讨 质量 的 这 些 方 面 的 重要 性 ， 他 的 书 [Birman 1996] 提 供 了 质量 的 这 些 
方面 对 系统 设计 影响 的 一 些 观点 。 

在 大 多 数 计算 机 系统 设计 中 ， 可 靠 性 和 安全 问题 是 非常 关键 的 ， 它 们 与 我 们 的 两 个 基础 模型 ， 
故障 模型 和 安全 模型 密切 相关 ， 这 两 种 模型 分 别 在 2.3.2 节 和 2.3.3 节 介绍 。 

服务 质量 的 性 能 方面 最 初 按 响 应 能 力 和 计算 吞吐 量 定义 ， 但 最 近 又 按 下 面 讨论 的 满足 时 序 保 
证 的 能 力 重新 定义 了 。 不 论 用 哪 一 种 定义 ， 分 布 式 系统 的 性 能 方面 都 与 2.3.1 节 定义 的 交互 模型 有 
很 大 的 关系 ， 这 三 个 基础 模型 是 贯穿 全 书 的 要 点 。 

些 应 用 处 理 实时 数据 一 一 指 要 按 固定 的 速度 处 理 的 数据 流 或 按 固 定 的 速度 从 一 个 进程 传输 到 
另 一 个 进程 的 数据 流 。 例 如 ， 电 影 播放 服务 包括 一 个 客户 程序 ， 该 客户 程序 从 一 个 视频 服务 器 检 
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索 电影 ， 然 后 将 它 展示 在 用 户 的 屏幕 上 。 为 了 获得 满意 的 结果 ， 连 续 的 视频 画面 要 在 指定 的 时 间 
限制 内 显示 给 用 户 。 

事实 上 ， 缩写 QoS 特 指 系统 满足 这 些 限 制 的 能 力 ，QoS 的 获得 取决 于 在 适当 的 时 间 必 要 的 计算 
和 网 络 资 源 的 可 用 性 。 这 意味 着 系统 要 提供 足够 的 计算 和 通信 资源 使 得 应 用 能 按时 完成 每 个 任务 
(例如 ， 显 示 视 频 画 面 的 任务 )。 

今天 所 广泛 使 用 的 网 络 ， 例 如 浏览 Web， 可 能 有 非常 好 的 性 能 特征 ， 但 当 它们 的 负载 很 重 时 ， 
它们 的 性 能 会 迅速 地 恶化 一 一 凭借 这 一 点 就 不 能 说 它们 提供 了 服务 质量 。QoS 应 用 于 操作 系统 和 网 
络 。 每 个 关键 资源 必须 为 要 求 QoS 的 应 用 保留 ， 必 须 有 提供 保证 的 资源 管理 器 。 不 能 被 满足 的 资源 
保留 请 求 将 被 拒绝 ， 这 些 问 题 将 在 第 17 章 解决 。 

缓存 和 复制 的 使 用 ”前面 概述 的 性 能 问题 经 常 是 分 布 式 系统 成 功 部 署 的 主要 障碍 ， 但 在 系统 设 
计 中 ， 通 过 使 用 数据 复制 和 缓存 克服 性 能 问题 已 有 很 大 进展 。2.2.2 节 介绍 了 缓存 和 Web 代 理 服务 
器 ,但 没有 讨论 服务 器 上 的 资源 被 更 新 后 ， 被 缓存 的 资源 拷贝 如 何 保持 最 新 。 为 适应 不 同 的 应 用 ， 
可 使 用 多 种 缓存 一 致 性 协议 。 例 如 ， 第 8 章 给 出 了 两 个 不 同 的 文件 服务 器 设计 所 使 用 的 协议 。 现 在 
我 们 简单 介绍 作为 HTTP 协 议 的 一 部 分 的 Web 缓 存 协 议 ，HTTP 协 议 将 在 4.4 节 中 介绍 。 

Web 线 存 协议 : Web 浏 览 器 和 代理 服务 器 缓存 都 能 响应 对 Web 服 务 器 的 客户 请 求 。 因 此 ， 对 一 
个 客户 请 求 的 响应 可 能 来 自 浏览 器 缓存 ， 也 可 能 来 自 客户 和 Web 服 务 器 之 间 的 代理 服务 器 缓存 。 
可 以 配置 缓存 一 致 性 协议 以 便 将 Web 服 务 器 持 有 的 最 新 的 资源 副本 提供 给 浏览 器 。 但 是 ， 虚 及 性 
能 、 可 用 性 和 断 链 操 作 ， 可 放宽 数据 新 鲜 度 条 件 。 

浏览 器 或 代理 通过 检查 原来 的 Web 服 务 器 来 了 解 缓存 的 响应 内 容 是 否 还 是 最 新 的 ， 从 而 验证 
缓存 的 响应 内 容 。 如 果 缓存 的 响应 内 容 不 能 通过 测试 ， 那 么 Web 服 务 器 将 返回 一 个 最 新 的 响应 内 
容 ， 用 它 替 换 缓存 中 过 时 的 响应 内 容 。 当 客户 请 求 相应 的 资源 时 ， 浏 览 器 和 代理 验证 缓存 的 响应 
内 容 。 但 如 果 缓 存 的 响应 内 容 已 经 足够 新 ， 那 么 它们 并 不 进行 验证 。 即 使 Web 服 务 器 知道 资源 被 
更 新 的 时 间 ， 它 也 不 通知 带 缓存 的 浏览 器 和 代理 一 -如果 要 这 样 做 ，Web 服 务 器 要 记录 对 每 个 资 
源 感 兴趣 的 浏览 器 和 代理 。 为 了 让 浏览 器 和 代理 确定 它们 存储 的 响应 内 容 是 否 过 时 ，Web 服 务 器 
给 它们 的 资源 赋予 一 个 大 致 过 期 的 时 间 ， 这 个 时 间 可 以 从 资源 上 一 次 被 更 新 的 时 间 估 算出 来 。 过 
期 时 间 可 能 有 误导 作用 ， 因 为 Web 资 源 可 能 在 任何 时 刻 被 更 新 。 只 要 Web 服 务 器 响应 一 个 请 求 ， 都 
会 把 资源 的 过 期 时 间 和 服务 器 上 的 当前 时 间 附 到 响应 内 容 上 。 

浏览 器 和 代理 把 过 期 时 间 和 服务 器 时 间 与 缓存 的 响应 内 容 存储 在 一 起 。 这 使 得 浏览 器 或 代理 
在 接收 请 求 后 ， 能 计算 出 缓存 的 响应 内 容 是 否 可 能 过 期 。 缓 存 的 响应 内 容 是 否 过 期 是 通过 与 过 期 
时 间 比 较 而 得 到 的 。 响 应 内 容 的 年 龄 (age) 是 响应 内 容 被 缓存 的 时 间 和 服务 器 时 间 之 和 。 注 意 ， 
这 种 计算 并 不 要 求 Web 服 务 器 上 的 计算 机 时 钟 以 及 浏览 器 或 代理 时 钟 的 相互 一 致 。 

可 依赖 性 问题 “可 依赖 性 是 大 多 数 应 用 领域 的 需求 。 它 不 仅 对 于 命令 和 控制 活动 非常 关键 一 
这 里 生命 是 利害 依 关 的 ， 而 且 对 于 许多 商业 应 用 也 很 关键 ， 包 括 快速 发 展 的 因特网 商业 领域 ， 这 
里 参与 者 的 金融 安全 性 和 完备 性 取决 于 它们 操作 的 系统 的 可 依赖 性 。 在 2.1 节 中 ， 我 们 把 计算 机 系 
统 的 可 依赖 性 定义 为 正确 性 、 安 全 性 和 容错 。 这 里 我 们 讨论 安全 和 容错 对 体系 结构 的 影响 ， 而 把 
实现 安全 和 容错 的 相关 技术 放 在 后 面 介绍 。 开 发 检查 或 确保 分 布 并 发 程序 正确 性 的 技术 是 正在 进 
行 的 研究 课题 。 虽 然 已 获得 一 些 有 前 途 的 结果 ， 但 还 很 少 有 成 熟 到 能 在 实际 应 用 中 实施 的 。 

容错 : 在 出 现 硬 件 、 软 件 和 网 络 故障 的 时 候 可 依赖 的 应 用 应 该 能 继续 正确 工作 。 可 靠 性 通过 
元 余 获 得 一 一 提供 多 个 资源 以 便 在 出 现 故障 时 系统 和 应 用 软件 能 重新 配置 并 继续 执行 它 的 任务 。 元 
余 很 昂贵 ， 它 能 应 用 的 范围 有 限 ， 因 此 能 获得 的 容错 的 程度 也 有 限 。 

在 体系 结构 层 ， 元 余 要 求 使 用 多 个 计算 机 和 多 个 通信 路 径 ， 在 多 个 计算 机 上 运行 系统 的 每 个 
组 件 进程 ， 在 多 个 通信 路 径 上 传递 消息 。 数 据 和 进程 可 在 需要 时 复制 ， 以 提供 所 需 的 容错 级 别 。 
-种 常见 的 元 余 是 在 不 同 计算 机 上 提供 数据 项 的 几 个 副本 一 一 只 要 这 些 计算 机 中 的 一 台 还 在 运行 ， 
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数据 就 可 以 被 访问 。 有 些 关键 的 应 用 (如 空中 交通 控制 系统 ) 对 数据 容错 有 很 高 的 要 求 ， 这 涉及 
为 保持 多 个 副本 为 最 新 要 付出 很 高 的 代价 。 第 15 章 将 进一步 讨论 这 个 问题 。 

其 他 形式 的 元 余 用 于 使 通信 协议 更 为 可 靠 。 例 如 ， 消 息 被 重 传 直到 接收 到 一 个 确认 消息 为 止 。 
RMI 下 层 的 协议 的 可 靠 性 见 第 4、5 章 。 

安全 性 : 安全 需求 对 体系 结构 的 影响 涉及 仅 在 能 有 效 抵御 攻击 的 计算 机 上 找到 敏感 数据 和 其 
他 资源 的 需求 。 例 如 ， 医 院 数据 库 包含 病 人 的 记录 ， 其 中 有 的 部 分 是 敏感 的 ， 只 能 被 某 些 医生 看 
到 ， 而 其 他 部 分 是 大 家 都 可 以 看 的 。 构 造 这 样 一 个 系统 并 不 合适 : 在 访问 这 个 系统 时 ， 系 统 将 整 
用 户 能 运行 
程序 访问 或 更 新 存储 在 他 们 个 人 计算 机 中 的 任何 一 部 分 数据 。2.3.3 节 将 介绍 解决 更 广泛 的 安全 需 
求 的 安全 模型 ， 第 7 章 讲 解 可 用 于 达到 上 述 目 标的 技术 。 


2.3 基础 模型 


上 面 的 各 种 系统 模型 具有 一 些 基 本 特性 。 特 别 是 ， 所 有 的 模型 由 若干 进程 组 成 ， 这 些 进程 通 
过 在 计算 机 网 络 上 发 送 消 息 而 相互 通信 ， 所 有 的 模型 都 能 满足 前 一 节 提 出 的 设计 需求 ， 包 括 进程 
及 网 络 的 性 能 和 可 靠 性 特征 ， 以 及 系统 中 资源 的 安全 性 。 本 节 给 出 基于 基本 特性 的 模型 ， 利 用 这 
些 模 型 ， 我 们 能 更 详细 地 描述 系统 可 能 展示 的 特征 、 故 障 和 安全 风险 。 

通常 ， 为 了 理解 和 推理 系统 行为 的 某 些 方面 ， 一 个 模型 仅 包含 我 们 要 考虑 的 实质 性 成 分 。 
个 系统 模型 必须 解决 下 列 问题 

。 系统 中 的 主要 实体 是 什么 ? 

。 它 们 如 何 交 互 ? 

。 影 响 它们 单个 和 和 集体 行为 的 特征 是 什么 ? 

模型 的 目的 是 : 

。 显 式 地 表示 有 关 我 们 正在 建 模 的 系统 的 假设 。 

。 给 定 这 些 假设 ， 就 什么 是 可 行 的 什么 是 不 可 行 的 给 出 结论 。 结 论 以 通用 算法 或 保证 成 立 的 特 
性 的 形式 给 出 。 特 性 成 立 的 保证 依赖 逻辑 分 析 和 (适当 时 候 的 ) 数学 证 明 。 

了 解 设计 依赖 什么 、 不 依赖 什么 我 们 就 能 从 中 获 益 。 如 果 在 一 个 特定 系统 中 实现 一 个 设计 ， 
只 需 验证 假设 是 否 成 立 ， 就 能 够 推断 出 这 个 设计 能 否 运 作 。 通 过 清晰 、 显 式 地 给 出 我 们 的 假设 ， 
就 能 利用 数学 方法 证 明 系 统 的 特征 ， 这 些 特征 对 任何 满足 假设 的 系统 都 成 立 。 最 后 ， 通 过 从 细节 
(如 硬件 ) 中 抽象 系统 的 基本 实体 ， 我 们 就 能 阐明 对 系统 的 理解 。 

我 们 希望 在 我 们 的 基本 模型 中 提取 的 分 布 式 系统 情况 能 解决 下 列 问题 : 

互 ; 计算 在 进程 中 发 生 ， 进 程 通过 传递 消息 ， 并 引发 进程 之 间 的 通信 (例如 信息 流 ) 和 协 

调 (活动 的 同步 和 排序 ) 进行 交互 。 在 分 布 式 系统 的 分 析 和 设计 中 ， 我 们 特别 关注 这 些 交互 。 交 
互 模型 必须 反映 通信 带 来 的 延迟 ， 这 些 延 迟 的 持续 时 间 会 比较 长 ， 必 须 反 映 独立 进程 相互 配合 的 
准确 性 受 限 于 这 些 延 迟 ， 受 限于 在 分 布 式 系统 中 很 难 跨 所 有 计算 机 维护 同一 时 间 概 念 。 

故障 :只 要 分 布 式 系统 运行 的 任 一 计算 机 上 出 现 故 障 (包括 软件 故障 ) 或 连接 它们 的 网 络 中 
出 现 故障 ， 分 布 式 系 统 的 正确 操作 就 受到 威胁 ， 我 们 的 模型 将 对 这 些 故障 进行 定义 和 分 类 。 这 为 
分 析 它 们 潜在 后 果 以 及 设计 能 容忍 任何 类 型 故障 的 系统 葛 定 了 基础 。 

安全 : 分 布 式 系统 的 模块 特性 和 它们 的 开放 性 将 它们 暴露 在 外 部 代理 和 内 部 代理 的 攻击 下 。 
我 们 的 安全 模型 对 发 生 这 种 攻击 的 形式 给 出 了 定义 并 进行 了 分 类 ， 为 分 析 系 统 的 威胁 以 及 设计 能 
抵御 这 些 威胁 的 系统 黄 定 了 基础 。 

为 了 帮助 讨论 和 推理 ， 我 们 对 本 章 介绍 的 模型 进行 了 必要 的 简化 ， 省 略 了 许多 真实 系统 中 的 细 
节 。 它 们 与 走 实 系统 的 关系 ， 以 及 在 模型 帮助 下 揭示 的 问题 环境 中 的 解决 方案 是 本 书 讨论 的 主题 。 
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2.3.1 交互 模型 
2.2 节 对 系统 体系 结构 的 讨论 表明 分 布 式 系 统 由 多 个 以 复杂 方式 进行 交互 的 进程 组 成 。 例 如 : 
。 多 个 服务 器 进程 能 相互 协作 提供 服务 。 前 面 提 到 的 例子 有 域名 服务 ( 它 将 数据 分 区 并 复制 到 
因特网 中 的 服务 器 上 ) 和 Sun 的 网 络 信息 服务 ( 它 在 局 域 网 的 几 个 服务 器 上 保存 口令 文件 的 
复制 版 本 )。 

。 对 等 进程 能 相互 协作 获得 一 个 共同 的 目标 。 例 如 ， 一 个 语音 会 议 系 统 ， 它 以 类 似 的 方式 分 布 

音频 数据 流 ， 但 它 有 严格 的 实时 限制 。 

大 多 数 程序 员 非 常熟 悉 工法 的 概念 一 一 采取 一 系列 步骤 以 执行 期 望 的 计算 。 简 单 的 程序 由 算法 
控制 ， 算 法 中 的 每 一 步 都 有 严格 的 顺序 。 由 算法 决定 程序 的 行为 和 程序 变量 的 状态 。 这 样 的 程序 
作为 一 个 进程 执行 。 由 多 个 上 面 所 说 的 进程 组 成 的 分 布 式 系统 是 很 复杂 的 。 它 们 的 行为 和 状态 能 
用 分 布 式 算法 描述 一 一 分 布 式 算法 是 组 成 系统 的 每 个 进程 所 采取 的 步 又 的 定义 ， 包 持 它 们 之 间 消 息 
的 传递 。 消 息 在 进程 之 间 传递 以 便 在 它们 之 间 传 递 信息 并 协调 它们 的 活动 。 

每 个 进程 执行 的 速率 和 进程 之 间 消 息 传递 的 时 限 通 常 是 不 能 预测 的 。 要 描述 分 布 式 算法 的 所 
有 状态 也 非常 困难 ， 因 为 它 必须 处 理 所 涉 及 的 一 个 或 多 个 进程 的 故障 或 消息 传递 的 故障 。 

交互 的 进程 执行 分 布 式 系统 中 所 有 的 活动 。 每 个 进程 有 它 自 己 的 状态 ， 该 状态 由 进程 能 访问 
和 更 新 的 数据 集 组 成 ， 包 括 程 序 中 的 变量 。 属 于 每 个 进程 的 状态 完全 是 私有 的 一 一 也 就 是 说 ， 它 不 
能 被 其 他 进程 访问 或 更 新 。 

本 节 讨 论 分 布 式 系 统 中 影响 进程 交互 的 两 个 重要 因素 : 

“通信 性 能 。 

。 不 可 能 维护 一 个 全 局 时 间 概 念 。 

通信 通道 的 性 能 在 我 们 的 模型 中 ， 通 信 通 道 在 分 布 式 系 统 中 可 用 许多 方法 实现 ， 例 如 ， 通 过 
计算 机 网 络 上 的 流 或 简单 消息 传递 来 实现 。 计 算 机 网 络 上 的 通信 有 下 列 与 延迟 、 带 宽 和 抖动 有 关 
的 性 能 特征 ， 

* 从 一 个 进程 开始 发 送 消息 到 另 一 个 进程 开始 接收 销 息 之 间 的 间隔 时 间 称 为 延迟 。 延 迟 包 括 ; 

“第 一 串 比 特 从 网 络 传递 到 目的 地 所 花费 的 时 间 。 例 如 ， 通 过 卫星 链接 传递 消息 的 延迟 是 无 


线 电 信号 到 达 卫 星 并 返回 的 时 间 。 

* 访问 网 络 的 延迟 ， 当 网 络 负 载 很 重 时 ， 延 迟 增长 很 快 。 例 如 ， 对 以 太 网 传送 而 言 ， 发 送 站 
点 要 等 待 网 络 有 空 。 

* 操作 系统 通信 服务 在 发 送 进程 和 接收 进程 上 所 花费 的 时 间 ， 这 个 时 间 会 随 操作 系统 当前 的 
负载 的 变化 而 变化 。 


* 计算 机 网 络 的 带宽 是 指 在 给 定时 间 内 网 络 能 传递 的 信息 总 量 。 当 大 量 通信 通道 使 用 同一 个 网 

络 时 ， 它 们 就 不 得 不 共享 可 用 的 带宽 。 

“拉动 是 传递 一 系列 消息 所 花费 的 时 间 的 变化 值 。 拌 动 与 多 媒体 数据 有 关 。 例 如 ， 如 果 音 频数 

据 的 连续 采样 在 不 同 的 时 间 间 隔 完成 ， 那 么 声音 将 严重 失真 。 

计算 机 时 钟 和 时 序 事件 分 布 式 系统 中 的 每 台 计算 机 有 自己 的 内 部 时 钟 ， 本 地 进程 用 这 个 时 钟 
获得 当前 时 间 值 。 因 此 ， 在 不 同 计算 机 上 运行 的 两 个 进程 能 将 时 间 改 与 它们 的 事件 关联 起 来 。 但 
是 ， 即 使 两 个 进程 在 同时 读 它们 的 时 钟 ， 它 们 各 自 的 本 地 时 钟 也 会 提供 不 同 的 时 间 值 。 这 是 因为 
计算 机 时 钟 和 绝对 时 间 之 间 有 偏 移 ， 更 重要 的 是 ， 它 们 的 漂移 率 互 不 相同 。 术 语 时 钟 漂移 率 指 的 
是 计算 机 时 钟 不 同 于 绝对 参考 时 钟 的 相对 有 量 。 即 使 分 布 式 系统 中 所 有 计算 机 的 时 钟 在 初始 情况 下 
都 设置 成 相同 的 时 间 ， 它 们 的 时 钟 最 后 也 会 相差 巨大 ， 除 非 进行 校正 。 

有 几 种 校正 计算 机 时 钟 的 时 间 的 方法 。 例 如 ， 计 算 机 可 使 用 无 线 电 接收 器 从 全 球 定位 系统 
(GPS) 以 大 约 1us 的 精度 接收 时 间 读数 。 但 GPS 接收 器 不 能 在 建筑 物 内 工作 ， 同 时 ， 为 每 一 台 计算 


[48| 





32 第 2 全 





机 增加 GPS 在 费用 上 也 不 合理 。 相 反 ， 具 有 精确 时 间 源 (如 GPS) 的 计算 机 可 发 送 时 序 消息 给 网 络 
中 的 其 他 计算 机 。 在 两 个 本 地 时 钟 时 间 之 间 进 行 协商 当然 会 受 消息 延迟 的 影响 。 有 关 时 钟 漂移 和 
时 钟 同步 的 更 详细 的 讨论 见 第 12 章 。 

交互 模型 的 两 个 变 体 在 分 布 式 系统 中 ， 很 难 对 进程 执行 、 消 息 传递 或 时 钟 漂移 的 时 间 设 置 时 
间 限 制 。 两 种 截然 相反 的 观点 提供 了 一 对 简单 模型 : 第 一 个 模型 对 时 间 有 严格 的 假设 ， 第 二 个 模 
型 对 时 间 设 有 假设 。 

同步 分 布 式 系统 : Hadzilacos 和 Toueg[1994] 定 义 了 一 个 同步 分 布 式 系统 ， 它 满足 下 列 约束 : 

* 进程 执行 每 一 步 的 时 间 有 一 个 上 限 和 下 限 。 

* 通 过 通道 传递 的 每 个 消息 在 一 个 已 知 的 时 间 范 围 内 接收 到 。 

。 每 个 进程 有 一 个 本 地 时 钟 ， 它 与 实际 时 间 的 偏 移 率 在 一 个 已 知 的 范围 内 。 

对 于 分 布 式 系统 ， 建 议 给 出 合适 的 关于 进程 执行 时 间 、 消 息 延迟 和 时 钟 漂移 率 的 上 下 界 是 可 
能 的 。 但 是 达到 实际 值 并 对 所 选 值 提供 保证 是 比较 困难 的 。 除 非 能 保证 上 下 界 的 值 ， 否 则 任何 基 
于 所 选 值 的 设计 都 不 会 可 靠 。 但 是 ， 按 同步 系统 构造 算法 ， 可 以 对 算法 在 实际 分 布 式 系统 的 行为 
提供 一 些 想 法 。 例 如 ， 在 同步 系统 中 ， 可 以 使 用 超时 来 检测 进程 的 故障 ， 见 2.2.3 节 。 

同步 分 布 式 系统 是 能 够 被 构造 出 来 的 。 所 要 求 的 是 进程 用 已 知 的 资源 需求 完成 任务 ， 这 些 资 
源 需 求 保证 有 足够 的 处 理 器 周期 和 网 络 能 力 ， 还 有 要 为 进程 提供 漂移 率 在 一 定 范围 内 的 时 钟 。 

异步 分 布 式 系统 : 许多 分 布 式 系统 ， 例 如 因特网 ， 是 非常 有 用 的 ， 但 它们 不 具备 同步 系统 的 
资格 。 因 此 我 们 需要 另 一 个 模型 ， 异 步 分 布 式 系统 ， 它 是 对 下 列 因素 没有 限制 的 系统 ， 

* 进程 执行 速度 一 ~ 例如， 进程 的 一 步 可 能 只 花费 亿 万 分 之 一 秒 ， 而 进程 的 另 一 步 要 花费 一 个 

世纪 的 时 间 ， 也 就 是 说 ， 每 一 步 能 花费 任意 长 的 时 间 。 

* 消息 传递 延迟 一 -例如 ， 从 进程 A 到 进程 B 传 递 一 个 消息 的 时 间 可 能 快 得 可 以 忽略 ， 也 可 能 要 

花费 几 年 时 间 。 换 名 话说， 消息 可 在 任意 长 时 间 后 接收 到 。 

“ 时钟 漂 移 率 一 一 时 钟 漂移 率 可 以 是 任意 的 。 

异步 模型 对 执行 的 时 间 间 隔 没 有 任何 假设 。 这 正好 与 因特网 一 致 ， 在 因特网 中 ， 服 务 器 或 网 
络 负载 没有 固有 的 范围 ， 对 像 用 ftp 传 输 文件 要 花费 多 长 时 间 也 没有 限制 。 有 时 电子 邮件 消息 要 花 
儿 天 时 间 才 能 到 达 。 下 面 的 “Pepperland 协 定 ”部 分 说 明 在 异步 分 布 式 系统 中 达成 协定 的 困难 性 。 

即使 有 假设 ， 有 些 设计 问题 也 能 得 到 解决 。 例 如 ， 虽 然 Web 并 不 总 能 在 一 个 合理 的 时 间 限 制 
内 提供 特定 的 响应 ， 但 浏览 器 能 让 用 户 在 等 待 时 做 其 他 事情 。 对 异步 分 布 式 系统 有 效 的 任何 解决 
方案 对 同步 系统 同样 有 效 。 

实际 的 分 布 式 系统 经 常 是 异步 的 ， 因 为 需要 共享 处 理 器 的 进程 和 共享 网 络 的 通信 通道 。 例 如 ， 
如 果 有 太 多 未 知 特性 的 进程 共享 一 个 处 理 器 ， 那 么 任何 一 个 进程 的 性 能 都 不 能 保证 。 有 许多 不 能 
在 异步 系统 中 解决 的 设计 问题 ， 在 使 用 时 间 的 某 些 特征 后 就 能 解决 。 在 最 终 期 限 之 前 传递 多 媒体 
数据 流 的 每 个 元 素 就 是 这 样 一 个 问题 。 对 这 样 的 问题 ， 可 使 用 同步 模型 。 下 面 的 “Pepperland 协 定 ” 
部 分 将 说 明 在 异步 系统 中 同步 时 钟 的 不 可 能 性 。 

事件 排序 在 许多 情况 下 ， 我 们 有 兴趣 知道 一 个 进程 中 的 一 个 事件 (发 送 或 接收 一 个 消息 ) 是 
发 生 在 另 一 个 进程 中 的 另 一 个 事件 之 前 、 之 后 或 同时 。 尽 管 缺乏 精确 的 时 钟 ， 但 系统 的 执行 仍 能 
用 事件 和 它们 的 顺序 来 描述 。 

例如 ， 考 虑 下 列 在 邮件 列表 中 一 组 电子 邮件 用 户 X、Y、Z、A 之 间 的 邮件 交换 ; 

1) 用 户 X 发 送 主题 为 Meeting 的 消息 。 

2) 用 户 Y 和 Z 发 送 一 个 主题 为 Re; Meeting 的 消息 进行 回复 。 

在 实际 环境 中 ，X 的 消息 最 早 发 送 ，Y 读 取 它 并 回复 ，Z 读 取 X 的 消息 和 Y 的 回复 并 发 出 另 一 个 
回复 ， 读 回复 引用 了 X 和 Y 的 消息 。 但 是 由 于 在 消息 发 送 中 各 自 独 立 的 延迟 ， 消 息 的 传递 可 能 像 图 
2-8 所 示 的 一 样 ， 一 些 用 户 可 能 以 错误 的 顺序 查看 这 两 个 消息 。 例 如 ， 用 户 A 可 能 看 见 ， 
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主题 
Re: Meeting 





Meeting 
Re: Meeting 


Pepperland 协 定 ”Pepperland 军 队 的 两 个 师 “ 红 师 ” 和 “ 蓝 师 ”驻扎 在 邻近 两 座 山 的 山顶 

上 。 山 谷 下 面 是 人 侵 的 敌 军 。 只 要 Pepperland 的 两 个 师 留 在 驻地 ， 他 们 就 是 安全 的 ， 他 们 通过 
派出 通信 兵 通 过 山谷 进行 通信 。Pepperland 的 两 个 师 需要 协商 它们 中 的 哪 一 方 率先 发 起 对 敌 军 
的 冲锋 以 及 冲锋 何 时 进行 。 即 使 是 在 异步 的 Pepperland， 由 谁 率先 冲锋 是 可 能 达成 一 致 的 。 例 
如 ， 每 个 师 报告 剩余 人 员 的 数量 ， 人 数 多 的 一 方 率先 冲锋 (如果 人 数 一 样 多 ， 则 由 红 师 率先 冲 
锋 )。 但 何 时 冲锋 呢 ? 非常 遗憾 ， 在 异步 Pepperland， 通 信 兵 的 速度 是 变化 的 。 如 果 红 师 派出 一 
个 通信 兵 ， 带 着 “冲锋 ”消息 ， 蓝 师 可 能 三 个 小 时 也 收 不 到 这 个 消息 ， 也 可 能 五 分 钟 就 收 到 这 
个 消息 了 。 在 同步 Pepperland 中 ， 仍 然 有 协调 问题 ， 但 是 两 个 师 知 道 一 些 有 用 的 约束 ; 每 个 消 
息 至 少 花 费 min 分 钟 至 多 花费 max 分 钟 到 达 。 如 果 率 先 冲 锋 的 师 发 送 “ 冲 锋 ” 消 息 ， 那 么 它 等 
待 min 分 钟 就 可 以 冲锋 。 另 一 个 师 在 收 到 消息 后 等 待 1 分钟， 然后 冲锋 。 在 率先 冲锋 的 师 之 后 不 

超过 (max 一 min+1) 分 钟 男 一 个 师 保证 发 起 冲锋 。 











-~ 

如 果 X、Y、Z 的 计算 机 上 的 时 钟 能 同步 ， 那 么 每 个 消息 在 发 送 时 可 以 附带 本 地 计算 机 时 钟 的 
时 间 。 例 如 ， 消 息 mi、 m2 和 ms 能 附带 时 间 记 、 刀 、 刁 ， 其 中 心 < by< 名。 接收 到 的 消息 将 根据 它们 的 时 
间 排 序 显 示 给 用 户 。 如 果 时 钟 基本 上 同步 ， 那 么 这 些 时 间 惟 通常 会 以 正确 的 顺序 排列 。 

因为 在 一 个 分 布 式 系统 中 时 钟 不 能 精确 同步 ， 所 以 Lamport[1978] 提 出 了 逻辑 时 间 的 模型 ， 用 
于 为 在 分 布 式 系统 中 运行 于 不 同 计算 机 上 的 进程 的 事件 提供 顺序 。 使 用 逻辑 时 间 不 需要 求助 于 时 
钟 就 可 以 推断 出 消息 的 顺序 。 详 细 内 容 可 参见 第 11 章 ， 我 们 在 这 里 只 介绍 逻辑 排序 的 某 些 方面 如 
何 应 用 到 邮件 排序 问题 。 | 

逻辑 上 ， 我 们 知道 消息 在 它 发 送 之 后 才 被 接收 ， 因 此 ， 我 们 为 图 2-8 所 示 的 成 对 事件 给 出 一 个 
逻辑 排序 。 例 如 ， 仅 考虑 涉及 X 和 Y 的 事件 ; 

X 在 了 接收 到 ml 之 前 发 送 m1; Y 在 X 接 收 到 my 之 前 发 送 m。 

我 们 也 知道 应 答 在 接收 到 消息 后 发 出 ， 因 此 对 于 Y， 我 们 有 下 列 逻 辑 排序 ; 

Y 在 发 送 m> 之 前 接收 mi 





接收 接收 接收 


1 疡 f 
图 2-8 事件 的 实时 排序 
逻辑 时 间 通 过 给 每 个 事件 赋予 一 个 与 它 的 逻辑 顺序 相对 应 的 数字 而 进一步 拓展 了 这 个 思想 。 这 
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样 ， 后 发 生 的 事件 的 数字 比 早 发 生 的 事件 的 数字 大 。 例 如 ， 图 2-8 为 X 和 Y 上 的 事件 分 配 了 数字 1 一 4。 


2.3.2 故障 模型 

在 分 布 式 系 统 中 ， 进 程 和 通信 通道 都 有 可 能 出 故障 ， 即 它们 可 能 偏离 被 认为 是 正确 或 所 期 户 
的 行为 。 故 障 模型 定义 了 故障 可 能 发 生 的 方式 ， 以 便 理解 故障 所 产生 的 影响 。Hadzilacos 和 
Toueg[1994] 提 供 了 一 种 分 类 法 ， 用 于 区 分 进程 故障 和 通信 通道 故障 。 这 些 故 障 将 分 别 在 下 面 的 
“遗漏 故障 ”"、“ 随 机 故障 ”和 “时 序 故 障 ” 部 分 介绍 。 

本 书 将 始终 使 用 故障 模型 。 例 如 : 

“第 4 章 将 给 出 数据 报 和 流通 信 的 Java 接 口 ， 它 们 分 别提 供 不 同 程度 的 可 靠 性 。 

“第 4 章 将 给 出 支持 RMI 的 请 求 一 应 答 协 议 。 它 的 故障 特征 取决 于 进程 和 通信 通道 两 者 的 故障 

特征 。 请 求 一 应 答 协 议 能 用 数据 报 或 流通 信 实 现 。 可 根据 实现 的 简单 性 、 性 能 和 可 靠 性 作出 

决定 。 

“第 14 章 将 给 出 事务 的 两 阶段 提交 协议 。 它 用 于 解决 进程 和 通信 通道 的 确定 性 故障 。 

遗漏 故障 踪 汤 故障 类 错误 指 的 是 进程 或 通信 通道 不 能 完成 要 求 它 做 的 动作 。 

进程 遗漏 故 障 ， 进程 主要 的 遗漏 故障 是 崩溃 。 当 我 们 说 进程 崩溃 了 ， 意 思 是 进程 停止 了 ， 将 
不 再 执行 程序 的 任何 步 入 。 能 在 故障 面前 存活 的 服务 ， 如 果 假 设 该 服务 所 依赖 的 服务 能 干净 利落 
地 崩溃 一 一 即 进程 或 者 正确 运行 或 者 停止 运行 ， 那 么 它 的 设计 能 简化 。 一 个 进程 p 是 通过 不 能 获得 
对 q 的 调用 消息 的 应 答 而 检测 到 进程 4 崩溃 的 。 然 而 ， 这 种 崩溃 检测 的 方法 依赖 起 时 的 使 用 ， 即 进 
程 用 一 段 固定 时 间 等 待 某 个 事件 的 发 生 。 在 异步 系统 中 ， 超 时 只 能 表明 进程 没有 响应 它 可 能 是 前 
省 了 ， 也 可 能 是 执行 速度 慢 ， 即 消息 还 没有 到 达 。 

如 果 其 他 进程 能 确切 检测 到 进程 已 经 崩溃 ， 那 么 这 个 进程 崩溃 称 为 故障 一 停止 。 在 同步 系统 
中 ， 如 果 当 确保 消息 已 被 发 送 ， 而 其 他 进程 又 没有 响应 时 ， 进 程 使 用 超时 ， 那 么 就 会 产生 故障 - 
停止 行为 。 例 如 ， 对 于 进程 p 和 q， 如 果 设 计 q 应 答 来 自 p 的 销 息 ， 而 且 进 程 P 在 按 p 本 地 时 钟 度量 的 
一 个 最 大 时 间 范 围 内 没有 收 到 进程 的 应 答 ， 那 么 进程 p 可 以 得 出 结论 ， 进程 q 出 故障 了 。 下 面 的 
“故障 检测 ”和 “在 故障 前 达成 协定 的 不 可 能 性 ”部 分 说 明 在 异步 系统 中 检测 故障 的 困难 以 及 在 故 
障 面前 达成 协定 的 困难 。 

通信 遗 沁 故 障 : 考虑 通信 原 语 send 和 receive。 进 程 p 通 过 将 消息 m 插 入 到 它 的 外 发 消息 缓冲 区 
来 执行 send。 通 信 通 道 将 m 传 输 到 q 的 接收 消息 缓冲 区 。 进 程 q 通 过 将 m 从 它 的 接收 消息 缓冲 区 取 走 
并 完成 传递 来 执行 receive ( 见 图 2-9) 。 通 常 由 操作 系统 提供 外 发 消息 缓冲 区 和 接收 消息 缓冲 区 。 


进程 p 进程 q 





通信 通道 
外 发 消息 缓冲 区 接收 消息 缓冲 区 


图 2-9 进程 和 通道 
如 果 通 信 通 道 不 能 将 消息 从 p 的 外 发 消息 缓冲 区 传递 到 gq 的 接收 消息 缓冲 区 ， 那 么 它 就 产生 了 
遗漏 故障 。 这 就 是 所 谓 的 “丢失 消息 "， 造 成 消息 入 失 通常 是 因为 在 接收 端 或 中 间 的 网 关上 缺乏 组 
促 区 空间 ， 或 因为 网 络 传输 错误 (可 由 消息 数据 携带 的 校 验 和 检测 到 )。Hadzilacos 和 Toueg[1994] 
将 在 发 送 进 程 和 外 发 消息 缓冲 区 之 间 的 消息 丢失 称 为 发 送 遗 汤 故 障 ， 在 接收 消息 缓冲 区 和 接收 进 
程 之 间 的 消息 丢失 称 为 接收 遗 汤 故 障 ， 在 两 者 之 间 的 消息 丢失 称 为 通道 遗 汤 故 障 。 遗 漏 故 障 和 随 
机 故障 的 分 类 见 图 2-10。 
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故障 检测 ”在 Pepperland 师 驻扎 在 山顶 的 情况 下 ( 见 “Pepperland 协 定 ” 部 分 )， 假设 敌 军 
聚集 足够 的 力量 攻击 任意 一 个 扎营 的 师 ， 那 么 任意 一 个 师 都 可 能 失败 。 进 一 步 假 设 ， 在 没有 被 
攻击 的 时 候 ， 各 师 定 时 地 派出 通信 兵 向 对 方 报告 自己 的 状态 。 在 异步 系统 中 ， 没 有 一 个 师 能 区 
别 是 对 方 被 打败 了 还 是 通信 兵器 越 中 间 出 谷 的 时 间 太 长 。 在 同步 的 Pepperland 中 ， 一 个 师 通过 
应 该 定期 出 现 的 通信 兵 的 缺席 就 能 判断 出 男 一 个 师 是 否 被 打败 了 。 但 是 ， 另 一 个 师 可 能 在 派出 
最 后 一 个 通信 兵 后 就 被 打败 了 。 

存在 故障 时 达成 协定 的 不 可 能 性 ”我们 一 直 假 设 Pepperland 通 信 兵 最 终 总 能 设法 通过 山谷 ， 
但 现在 要 假设 敌 军 会 抓 住 通信 兵 ， 阻 止 他 到 达 (我 们 还 假设 敌人 不 可 能 给 通信 兵 “洗脑 "， 从 
而 让 他 传达 错误 的 消息 ) 。 红 师 和 蓝 师 能 发 送 消息 使 得 他 们 能 一 致 决定 对 敌 军 冲锋 或 投降 吗 ? 
非常 遗憾 ， 正 如 Pepperland 理 论 家 Ringo 大 师 证 明 的 一 样 ， 在 这 样 的 环境 中 ， 两 个 师 不 能 一 致 地 
决定 做 什么 。 为 了 了 解 这 一 点 ， 假 设 两 个 师 执 行 达成 一 致 的 Pepperland 协 议 。 革 一方 提 出 “ 冲 
锋 ! ”或 “投降 ! ”， 协议 使 得 双方 同意 这 一 方 或 另 一 方 的 动作 。 现 在 考虑 在 某 一 轮 协 议 中 发 
送 的 最 后 一 个 消息 。 携 带 消息 的 通信 兵 可 能 被 敌 军 俘 虏 。 不 论 消息 到 达 与 否 ， 最 后 的 结果 必须 
一 致 。 所 以 我 们 去 掉 它 。 现 在 我 们 对 剩 下 消息 中 的 最 后 一 个 应 用 同一 论点 。 这 个 论点 可 再 应 用 
到 那个 销 息 ， 然 后 继续 应 用 这 个 论点 ， 最 后 我 们 将 以 没有 要 发 送 的 消息 结束 ! 这 表明 如 果 通 信 
兵 被 俘虏 ， 就 没有 保证 Pepperland 师 之 间 一 致 的 协议 存在 。 








故障 可 以 按照 它们 的 严重 性 分 类 。 到 现在 为 止 ， 我 们 描述 的 所 有 故障 是 良性 故障 。 在 分 布 式 
系统 中 ， 大 多 数 故 障 是 良性 的 。 良 性 故障 包括 遗漏 故障 以 及 时 序 故障 和 性 能 故障 。 

随机 故障 ”术语 随机 故障 或 拜占庭 故障 用 于 描述 可 能 出 现 的 最 坏 的 故障 ， 此 时 可 能 发 生 任何 类 
型 的 错误 。 例 如 ， 一 个 进程 可 能 在 数据 项 中 设置 了 错误 的 值 ， 或 为 响应 一 个 调用 返回 一 个 错误 的 值 。 

进程 的 随机 故障 是 指 进程 随机 地 省 略 要 做 的 处 理 步骤 或 执行 一 些 不 需要 的 处 理 步骤 。 因 此 ， 
进程 的 随机 故障 不 能 通过 查看 进程 是 否 应 答 调用 来 检测 ， 因 为 它 可 能 随机 地 遗漏 应 答 。 

通信 通道 也 会 出 现 随机 故障 。 例 如 ， 消 息 内 容 可 能 被 损坏 或 者 发 送 不 存在 的 消息 ， 也 可 能 多 
次 发 送 实际 的 消息 。 通 信 通 道 的 随机 故障 很 少 ， 因 为 通信 软件 能 识别 这 类 故障 并 拒绝 出 错 的 消息 。 
例如 ， 可 用 校 验 和 检测 损坏 的 消息 ， 消 息 序号 可 用 于 检测 不 存在 和 重复 的 消息 。 











故障 类 型 影响 对 象 描 述 
故障 一 停止 进程 进程 停止 并 -- 直 停止 。 其 他 进程 可 检测 到 这 个 状态 
崩 潢 进程 进程 停止 并 一 直 停止 。 其 他 进程 可 能 无 法 检测 到 这 个 状态 
遗漏 通道 插入 外 发 消息 缓冲 区 的 消息 不 能 到 达 另 一 端的 接收 消息 缓 串 区 
发 送 遗 漏 进程 进程 完成 了 send， 但 消息 没有 放 入 它 的 外 发 消息 缓冲 区 
接收 遗漏 进程 “个 消息 已 放 在 进程 的 接收 消息 缓 串 区 ， 但 那个 进程 没有 接收 它 
随机 进程 进程 /通道 显示 出 随机 行为 ， 它 可 能 在 随机 时 间 里 发 送 / 传 递 随机 的 消息 ， 
( 苦 占 庭 式 ) 或 会 有 遗漏 发 生 ， 个 进程 可 能 停止 或 者 采取 不 正确 的 步 台 
通道 





图 2-10 遗漏 故障 和 随机 故障 


时 序 故障 时 序 故障 适用 于 同步 分 布 式 系统 。 在 这 样 的 系统 中 ， 进 程 执行 时 间 、 消 息 传递 时 间 
和 时 钟 漂移 率 均 有 限制 。 时 序 故障 见 图 2-11 的 列表 。 这 些 故障 中 的 任何 一 个 均 可 导致 在 指定 时 间 间 
隔 内 对 客户 没有 响应 。 

在 异步 分 布 式 系统 中 ， 一 个 负载 过 重 的 服务 器 的 响应 时 间 可 能 很 长 ， 但 我 们 不 能 说 它 有 时 序 
故障 ， 因 为 它 不 提供 任何 保证 。 


实时 操作 系统 是 以 提供 时 序 保证 为 目的 而 设计 的 ， 但 这 种 系统 在 设计 上 很 复杂 ， 会 要 求 元 余 
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的 硬件 。 大 多 数 通 用 的 操作 系统 (如 UNIX) 不 能 满足 实时 限制 。 
影响 对 象 描述 
进程 进程 的 本 地 时 钟 超 过 了 与 实际 时 间 的 漂移 率 的 范围 








进程 进程 超过 了 两 个 进程 步 之 间 的 间隔 范围 
通道 消息 传递 花费 了 比 规定 的 范围 更 长 的 时 间 





图 2-11 时 序 故障 


时 序 与 有 音频 和 视频 通道 的 多 媒体 计算 机 关系 尤为 密切 。 视 频 信息 要 求 传 输 海量 的 数据 。 若 
要 在 传递 视频 信息 时 不 出 现时 序 故障 ， 那 么 就 要 对 操作 系统 和 通信 系统 提出 特殊 的 要 求 。 

故障 屏 项 分 布 式 系统 中 的 每 个 组 件 通 常 是 基于 其 他 一 组 组 件 构造 的 。 利 用 存在 故障 的 组 件 构 
造 可 靠 的 服务 是 可 能 的 。 例 如 ， 保存 有 数据 副本 的 多 个 服务 器 在 其 中 一 个 服务 器 崩溃 时 能 继续 提 
供 服务 。 了 解 组 件 的 故障 特征 有 利于 在 设计 新 服务 时 屏蔽 它 所 依赖 的 组 件 的 故障 。 一 个 服务 通过 
隐藏 故障 或 者 通过 将 它 转换 成 一 个 更 能 接收 的 故障 类 型 来 屏 茂 故障 。 对 于 后 者 ， 我 们 给 出 一 个 例 
子 ， 校 验 和 用 于 屏蔽 损坏 的 消息 一 一 它 有 效 地 将 随机 故障 转化 为 遗漏 故障 。 我 们 将 在 第 3 章 和 第 4 章 
看 到 通过 使 用 将 不 能 到 达 目 的 地 的 消息 重 传 的 协议 可 以 隐藏 遗漏 故障 。 第 15 章 将 介绍 利用 复制 进 
行 故障 屏蔽 的 方法 。 甚 至 进程 崩溃 也 可 以 屏蔽 一 -通过 替换 进程 并 根据 原 进程 存储 在 磁盘 上 的 信息 
恢复 内 存 来 实现 。 

一 对 一 通信 的 可 靠 性 虽然 基本 的 通信 通道 可 能 出 现 前 面 描述 的 遗漏 故障 ， 但 用 它 来 构造 一 个 
能 屏蔽 某 些 故 障 的 通信 服务 是 可 能 的 。 

术语 可 靠 通信 可 从 下 列 有 效 性 和 完整 性 的 角度 来 定义 : 

有 效 性 :外 发 消息 缓冲 区 中 的 任何 消息 最 终 能 发 送 到 接收 消息 缓冲 区 。 

完整 性 : 接收 到 的 消息 与 发 送 的 消息 一 致 ， 没 有 消息 被 发 送 两 次 。 

对 完整 性 的 威胁 来 自 两 个 方面 : 

* 任何 重 发 消息 但 不 拒绝 到 达 两 次 的 消息 的 协议 。 要 和 检测 消息 是 否 到 达 了 两 次 ， 可 以 在 协议 中 

给 消息 附加 序号 。 

* 心怀 恶 意 的 用 户 ， 他 们 可 能 桂 入 伪造 的 消息 、 重 放 旧 的 消息 或 自 改 消息 。 在 面 对 这 种 攻击 时 

为 维护 完整 性 要 采取 相应 的 安全 措施 。 

2.3.3 安全 模型 

在 2.2 节 中 ， 我 们 认为 构建 分 布 式 系统 源 于 对 资源 共享 的 需求 ， 我 们 用 封装 了 对 象 和 通过 与 其 
他 进程 的 交互 来 访问 它们 的 进程 来 描述 它们 的 系统 体系 结构 。 那 个 体系 结构 模型 为 我 们 的 安全 模 
型 提供 了 基础 : 

通过 保证 进程 和 用 于 进程 交互 的 通道 的 安全 以 及 保护 所 封装 的 对 象 不 会 在 未 经 授权 

时 访问 可 达到 分 布 式 系统 的 安全 。 

这 里 ， 采 用 了 保护 对 象 这 种 说 法 ， 尽 管 这 些 概念 可 平等 地 应 用 到 所 有 类 型 的 资源 上 。 

保护 对 象 ”图 2-12 给 出 了 代表 一 些 用 户 管理 一 组 对 象 的 一 个 服务 器 。 用 户 运行 客户 程序 ， 由 客 
户 程序 向 服务 器 发 送 调 用 以 完成 在 对 象 上 的 操作 。 服 务 器 完成 每 个 调用 指定 的 操作 并 将 结果 发 给 
客户 。 

对 象 可 按 不 同 的 方式 由 不 同 的 用 户 使 用 。 例 如 ， 有 些 对 象 持 有 用 户 的 私有 数据 ， 如 他 们 的 邮 
箱 ， 而 其 他 对 象 可 能 持 有 共享 数据 ， 如 Web 页 面 。 为 了 解决 这 样 的 问题 ， 通 过 访问 权限 指定 允许 
谁 执行 一 个 对 象 的 操作 一 一 例如 ， 允 许 谁 读 或 写 它 的 状态 。 

这 样 ， 我 们 必须 在 我 们 的 模型 中 包括 作为 访问 权限 受益 人 的 用 户 。 我 们 将 每 个 调用 和 每 个 结 
打 均 与 对 应 的 授权 方 相关 联 。 这 样 的 一 个 授权 方 称 为 一 个 主体 。 一 个 主体 可 以 是 一 个 用 户 或 进程 。 
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在 我 们 的 图 示 中 ， 调 用 来 自用 户 ， 结 果 来 自 服务 器 。 


访问 权限 对 象 





主体 (用 户 ) 网 络 主体 (服务 器 ) 
图 2-12 对 象 和 主体 


服务 器 负责 验证 每 个 调用 的 主体 的 身份 ， 检 查 它们 是 否 有 足够 的 访问 权限 在 所 调用 的 某 个 对 
象 上 完成 所 请 求 的 操作 ， 如 果 没 有 权限 就 拒绝 它们 的 请 求 。 客 户 可 以 检查 服务 器 的 主体 身份 以 确 
保 结果 来 自 所 请 求 的 服务 器 。 

保护 进程 和 它们 的 交互 、 进 程 通过 发 送 消息 进行 交互 。 消 息 易于 受到 攻击 ， 因 为 它们 所 使 用 的 
网 络 和 通信 服务 是 开放 的 ， 以 使 得 任 一 对 进程 进行 交互 。 服 务 器 和 对 等 进程 暴露 它们 的 接口 ， 使 
得 任何 其 他 进程 能 给 它们 发 送 调用 。 

分 布 式 系统 经 常 在 可 能 受到 来 自 敌对 用 户 的 外 部 攻击 的 任务 中 使 用 和 部 署 . 对 处 理 金 融 交 易 、 
机 要 或 秘密 信息 以 及 任何 注重 保密 性 或 完整 性 的 信息 的 应 用 而 言 ， 这 一 点 是 千 真 万 确 的 。 完 整 性 
会 由 于 违反 安全 规则 以 及 通信 故障 而 受到 威胁 。 所 以 我 们 知道 有 可 能 存在 对 组 成 这 样 的 应 用 的 进 
程 的 威胁 和 对 在 进程 之 间 传送 的 消息 的 威胁 。 但 为 了 识别 和 抵御 这 些 威胁 ， 我 们 如 何 分 析 它 们 
呢 ? 下 面 的 讨论 将 介绍 分 析 安 全 威胁 的 一 个 模型 。 

敌人 为 了 给 安全 威胁 建 模 ， 我 们 假定 敌人 (有 时 也 称 为 对 手 ) 能 给 任何 进程 发 送 任何 消息 ， 
并 读 取 或 复制 一 对 进程 之 间 的 任何 消息 ， 如 图 2-13 所 示 。 这 种 攻击 能 很 简单 地 实现 ， 它 利用 连接 在 
网 上 的 计算 机 运行 一 个 程序 读 取 发 送 给 网 络 上 其 他 计算 机 的 网 络 消息 ， 或 是 运行 一 个 程序 生成 假 
的 服务 请 求 消息 并 声称 来 自 授权 的 用 户 。 攻 击 可 能 来 自 合法 地 连接 到 网 络 的 计算 机 或 以 非 授权 方 


式 连接 到 网 络 的 计算 机 。 
ae 


人。 敌人 


) 








通信 通道 


图 2-13 敌人 

来 自 “个 六 在 敌人 的 威胁 将 在 下 面 的 “对 进程 的 威胁 ",“ 对 通信 通道 的 威胁 ”和 “服务 拒绝 ” 
部 分 讨论 。 

对 进程 的 威胁 ， 在 分 布 式 系统 中 ， 一 个 用 于 处 理 到 达 的 请 求 的 进程 可 以 接收 来 自 其 他 进程 的 
消息 ， 它 没有 必要 确定 发 送 方 的 身份 。 通 信 协 议 (如 IP) 确实 在 每 个 消息 中 包括 了 源 计算 机 的 地 
址 ， 但 对 一 个 敌人 而 言 ， 用 一 个 假 的 源 地 址 生成 一 个 消息 并 不 困难 。 缺 乏 消 息 源 的 可 靠 的 知识 对 
服务 器 和 客户 的 正确 工作 而 言 是 一 个 威胁 ， 有 具体 解释 如 下 ， 

* 服务 器 : 因为 服务 器 能 接收 来 自 许多 不 同 客 户 的 调用 ， 所 以 它 未 必 能 确定 进行 调用 的 主体 

的 身份 。 即 使 服务 器 要 求 在 每 个 调用 中 加 入 主体 的 身份 ， 敌 人 也 可 能 用 假 的 身份 生成 一 个 调 
用 。 在 没有 关于 发 送 方 身 份 的 可 靠 知 识 时 ,服务 器 不 能 断定 应 执行 操作 还 是 拒绝 操作 。 例如， 


S4 





38 务 2 草 


邮件 服务 器 不 知道 从 指定 邮箱 中 请 求 一 个 邮件 的 用 户 是 否 有 权限 这 样 做 ， 或 者 它 是 否 为 来 自 

一 个 敌人 的 请 求 。 

* 客户: 当 客 户 接收 到 服务 器 的 调用 结果 时 ， 它 未 必 能 区 分 结果 消息 来 自 预期 的 服务 器 还 是 

来 自 一 个 “哄骗 ”邮件 服务 器 的 敌人 。 因 此 ， 客 户 可 能 接收 到 一 个 与 原始 调用 无 关 的 结果 ， 

如 一 个 假 的 邮件 (不 在 用 户 邮 箱 中 的 邮件 )。 

对 通信 通道 的 威胁 : 一 个 敌人 在 网 络 和 网 关上 行进 时 能 拷贝 、 改 变 或 插入 消息 。 当 信息 在 网 
络 上 传递 时 ， 这 种 攻击 会 对 信息 的 私密 性 和 完整 性 构成 威胁 ， 对 系统 的 完整 性 也 会 构成 威胁 。 例 
如 ， 包 含 用户 邮件 的 结果 消息 可 能 泄漏 给 另 一 个 用 户 或 者 它 可 能 被 改变 成 完全 不 同 的 东西 。 

男 一 种 形式 的 攻击 是 试图 保存 消息 的 拷贝 并 在 以 后 重 放 这 个 消息 ， 这 使 得 反复 重用 同一 消息 
成 为 可 能 。 例 如 ， 有 些 人 通过 重 发 请 求 从 一 个 银行 账户 转账 到 另 一 个 银行 账户 的 调用 消息 而 受益 。 
利用 安全 通道 可 解除 这 些 威胁 ， 安 全 通道 是 基于 密码 学 和 认证 的 ， 详 细 内 容 见 下 面 的 描述 。 

解除 安全 威胁 ”下面 将 介绍 安全 系统 所 基 十 的 主要 技术 。 第 7 章 将 详细 讨论 安全 的 分 布 式 系统 
的 设计 和 实现 。 
密码 学 和 共享 秘密 : 假设 一 对 进程 〈 例 如 某 个 客户 和 某 个 服务 器 ) 共享 一 个 秘密 ， 即 它们 两 
58 | 个 知道 秘密 但 分 布 式 系统 中 的 其 他 进程 不 知道 这 个 秘密 。 如 果 由 一 对 进程 交换 的 消息 包括 证 明 发 
59 |] 送 方 共享 秘密 的 信息 ， 那 么 接收 方 就 能 确认 发 送 方 是 一 对 进程 中 的 另 一 个 进程 。 当 然 ， 必 须 小 心 
以 确保 共享 的 秘密 不 泄露 给 敌人 。 
密码 学 是 保证 消息 安全 的 科学 ， 加 密 是 将 消息 编码 以 隐藏 其 内 容 的 过 程 。 现 代 密 码 学 基于 使 
用 密 钥 〈 很 难 猜测 的 大 数 ) 的 加 密 算法 来 传输 数据 ， 这 些 数据 只 能 用 相应 的 解密 密 钥 恢复 。 
认证 : 使 用 共享 秘密 和 加 密 为 消息 的 认证 一 一 证 明 由 发 送 方 提供 的 身份 一 - 黄 定 了 基础 。 基 本 
的 认证 技术 是 在 消息 中 包含 加 密 部 分 ， 该 部 分 中 包含 足够 的 消息 内 容 以 保证 它 的 真实 性 。 对 文件 
服务 器 的 一 个 读 取 部 分 文件 的 请 求 ， 其 认证 部 分 可 能 包括 请 求 的 主体 身份 的 表示 、 文 件 的 标识 、 
请 求 的 日 期 和 时 间 ， 所 有 内 容 都 用 一 个 在 文件 服务 器 和 请 求 的 进程 之 间 共 享 的 密 钥 加 密 。 服 务 器 
能 解密 这 个 请 求 并 检查 它 是 否 与 请 求 中 指定 的 未 加 密 细 节 相 对 应 。 
安全 通道 : 加 密 和 认证 用 于 构造 安全 通道 ， 安 全 通道 作为 已 有 的 通信 服务 层 之 上 的 服务 层 。 
安全 通道 是 连接 一 对 进程 的 通信 通道 ， 每 个 进程 代表 一 个 主体 行事 ， 如 图 2-14 所 示 。 一 个 安全 通道 
有 下 列 特性 ， 
OO 7] 





图 2-14 安全 通道 


* 每 个 进程 确切 知道 其 他 正在 执行 的 进程 所 代表 的 主体 身份 。 因 此 ， 如 果 客 户 和 服务 器 通过 安全 
通道 通信 , 那么 服务 器 要 知道 发 起 调用 的 主体 身份 , 并 能 在 执行 操作 之 前 检查 它们 的 访问 权限 。 
这 使 得 服务 器 能 正确 地 保护 它 的 对 象 ， 以 便 客 户 相信 它 是 从 真实 的 服务 器 上 接收 到 结果 。 
。 安 全 通道 确保 在 其 上 传递 的 数据 的 私密 性 和 完整 性 (防止 得 改 )。 
“每 个 消息 包括 一 个 物理 的 或 逻辑 的 时 间 戳 以 防 消息 被 重 放 或 重 排序 。 
构造 安全 通道 的 详细 讨论 见 第 7 章 。 安 全 通道 已 成 为 保护 电子 商务 和 通信 安全 的 一 个 重要 的 实 
用 工具 。 虚 拟 私 网 (VPN， 见 第 3 章 的 讨论 ) 和 安全 套 接 字 (SSL) 协议 ( 见 第 7 章 的 讨论 ) 就 是 安 
全 通道 的 实例 。 
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其 他 可 能 的 来 自 敌人 的 威胁 ”1.4.3 节 简要 介绍 了 两 个 安全 威胁 一 一 拒绝 服务 攻击 和 移动 代码 的 
部 署 。 作 为 敌人 破坏 进程 活动 的 可 能 的 机 会 ， 我 们 要 再 介绍 一 下 这 两 个 安全 威胁 。 

拒绝 服务 : 在 这 种 攻击 形式 下 ， 敌 人 通过 超 量 地 、 无 意义 地 调用 服务 或 在 网 络 上 进行 消息 传 
递 ， 干 扰 授 权 用 户 的 活动 ， 导 致 物理 资源 (网络 带宽 ， 服 务 器 处 理 能 力 ) 的 过 载 。 这 种 攻击 通常 
意 在 延迟 或 阻碍 其 他 用 户 的 动作 。 例 如 ， 建 筑 物 中 的 电子 门 锁 可 能 由 于 受到 对 计算 机 控制 的 电子 
锁 的 过 多 非法 请 求 而 失效 。 

移动 代码 : 如 果 进 程 接收 和 执行 来 自 其 他 地 方 (如 1.4.3 节 提 到 的 邮件 附件 ) 的 程序 代码 ， 那 
么 这 些 移动 代码 就 会 带 来 新 的 、 有 趣 的 安全 问题 。 这 样 的 代码 很 容易 扮演 特洛伊 木马 的 角色 ， 声 
称 完成 的 是 无 害 的 事情 但 事实 上 包括 了 访问 或 修改 资源 的 代码 ， 这 些 资源 对 宿主 进程 是 合法 可 用 
的 但 对 代码 的 编号 者 是 不 合法 的 。 实 现 这 种 攻击 有 多 种 不 同 的 方法 ， 因 此 必须 非常 小 心地 构造 宿 
主 环境 以 避免 攻击 。 其 中 的 大 多 数 问题 已 在 Java 和 其 他 移动 代码 系统 中 解决 了 ， 但 从 最 近 的 一 段 历 
史 看 ， 移 动 代码 问题 暴露 了 一 些 让 人 窒 迫 的 弱点 。 这 一 点 也 很 好 地 说 明了 所 有 安全 系统 的 设计 都 
需要 严格 的 分 析 。 

安全 模型 的 使 用 分布 式 系统 的 安全 涉及 根据 预定 义 的 访问 权限 控制 对 象 的 访问 以 及 通信 的 安 
全 通道 的 使 用 。 有 人 认为 ， 在 分 布 式 系统 中 获得 安全 是 件 简单 的 事 。 但 是 通常 却 不 是 这 样 。 安 全 
技术 〈 如 加 密 ) 和 访问 控制 的 使 用 会 产生 实质 性 的 处 理 和 管理 开销 。 前 面 概述 的 安全 模型 提供 了 
分 析 和 设计 安全 系统 的 基础 ， 其 中 这 些 开销 保持 最 少 ， 但 对 分 布 式 系统 的 威胁 会 在 许多 地 方 出 现 ， 
需要 对 系统 网 络 环境 、 物 理 环境 和 人 际 环境 中 所 有 可 能 引发 的 威胁 进行 仔细 的 分 析 。 这 种 分 析 涉 
及 构造 威胁 模型 ， 由 它 列 出 系统 会 遭遇 的 各 种 形式 的 攻击 、 风 险 评估 和 每 个 威胁 所 造成 的 后 果 。 
要 在 抵御 威胁 所 需 的 安全 技术 的 有 效 性 和 开销 之 间 做 出 权衡 。 


2.4 小 结 


大 多 数 分 布 式 系统 都 根据 某 种 体系 结构 模型 安排 。 客 户 一 服务 器 模型 是 一 种 流行 的 体系 结构 
模型 一 -Web 和 其 他 因特网 服务 (如 ftp、 新 闻 和 邮件 以 及 Web 服务 和 DNS) 均 基 于 这 个 模型 ， 文 件 
归档 和 其 他 本 地 服务 也 是 如 此 。 像 DNS 这 种 有 大 量 的 用 户 并 管理 大 量 信息 的 服务 是 基于 多 个 服务 
器 的 ， 并 使 用 数据 分 区 和 复制 提高 可 用 性 和 容错 能 力 。 客 户 和 代理 服务 器 上 的 缓存 得 到 广泛 使 用 
以 提高 服务 的 性 能 。 

在 对 等 模型 中 ， 所 有 进程 扮演 类 似 的 角色 ， 利 用 大 量 参与 工作 的 大 量 计算 机 上 的 资源 完成 共 
同 的 任务 。 

将 代码 从 一 个 进程 移动 到 另 一 个 进程 的 能 力 导致 了 客户 一 服务 器 模型 的 一 些 变 体 的 出 现 。 最 
常见 的 例子 是 applet， 它 的 代码 由 Web 服 务 器 提供 ， 由 客户 运行 ， 为 客户 提供 它 所 不 具备 的 功能 ， 
并 由 于 代码 靠近 用 户 而 提高 了 性 能 。 

便携 式 计 算 机 、PDA 和 其 他 数字 设备 的 存在 以 及 与 分 布 式 系统 的 集成 使 用 户 能 够 在 不 方便 使 
用 桌面 计算 机 的 时 候 访 问 本 地 和 因特网 服务 。 分 布 式 系统 中 移动 设备 的 特征 是 它们 不 能 预测 连接 
和 断 链 。 这 导致 了 客户 一 服务 器 模型 的 变 体 一 一 自发 互 操作 的 出 现 ， 在 自发 互 操作 中 ， 设 备 之 间 的 
关联 经 常 被 创建 或 销毁 。 

我 们 给 出 了 交互 模型 、 故 障 模型 和 安全 模型 。 它 们 识别 出 构造 分 布 式 系统 的 基本 组 件 的 共同 
特征 。 交 互 模型 关注 进程 和 通信 通道 的 性 能 以 及 全 局 时 钟 的 缺乏 。 它 将 同步 系统 看 成 在 进程 执行 
时 间 、 消 息 传递 时 间 和 时 钟 漂移 上 有 已 知 范围 的 系统 ， 将 异步 系统 看 成 在 进程 执行 时 间 、 消 息 传 
递 时 间 和 时 钟 漂移 上 没有 限制 的 系统 一 一 时 钟 漂移 是 对 因特网 行为 的 描述 。 

故障 模型 将 分 布 式 系统 中 的 进程 故障 和 基本 的 通信 通道 故障 进行 了 分 类 。 屏 项 是 一 项 技术 ， 
依靠 它 ， 可 将 不 太 可 靠 的 服务 中 的 故障 加 以 屏蔽 ， 并 基于 此 构造 出 较 可 靠 的 服务 。 特 别 是 ， 通 过 
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屏蔽 基本 通信 通道 的 故障 ， 可 从 基本 的 通信 通道 构造 出 可 靠 的 通信 服务 。 例 如 ， 遗 漏 故障 可 通过 
重 传 入 失 的 消息 加 以 屏 项。 完整 性 是 可 靠 通信 的 一 个 性 质 一 一 它 要 求 接收 到 的 消息 与 发 送 的 消息 一 
致 ， 并 且 没 有 消息 被 发 送 两 次 。 有 效 性 是 可 靠 通信 的 另 一 个 性 质 一 一 它 要 求 发送 消 息 缓冲 区 中 的 任 
何 消息 最 终 都 能 传递 到 接收 消息 缓冲 区 。 

安全 模型 可 识别 出 一 个 开放 的 分 布 式 系统 中 对 进程 和 通信 通道 可 能 的 威胁 。 有 些 威胁 与 完整 
性 有 关 : 恶意 用 户 可 能 纂 改 消息 或 重 放 消息 。 其 他 的 威胁 则 会 损害 私密 性 。 另 一 个 安全 问题 是 发 
送 消 息 所 代表 的 主体 (用户 或 服务 器 ) 的 认证 。 安 全 通道 使 用 密码 技术 来 确保 消息 的 完整 性 和 私 
密 性 ， 并 使 得 相互 通信 的 主体 可 以 进行 验证 。 


练习 

2.1 描述 一 个 或 多 个 主要 的 因特网 应 用 (如 Web， 电 子 邮件 或 网 络 新 闻 ) 的 客户 一 服务 器 体系 结 
构 并 给 出 图 解 。 (第 35 页 ) 

2.2 对 于 练习 2.1 中 描述 的 应 用 ， 叙 述 服 务 器 如 何 协作 以 提供 服务 。 (第 37 页 ) 


2.3 对 于 练习 2.1 中 讨论 的 应 用 ， 如 何 进行 服务 器 之 间 的 数据 分 区 和 复制 〈 或 缓存 ) ? (第 37 页 ) 
2.4 搜索 引擎 是 一 个 Web 服 务 器 ， 它 响应 客户 的 请 求 ， 在 它 存储 的 索引 中 查找 ， 并 (同时) 运行 
几 个 Web 蜂 蛛 任务 创建 和 更 新 索引 。 在 这 些 并 发 的 活动 之 间 进 行 同步 的 需求 是 什么 ? 


(第 35 页 ) 
2.5 在 对 等 系统 中 使 用 的 主机 通常 是 用 户 办 公 室 或 家 里 的 计算 机 。 对 共享 数据 对 象 的 可 用 性 和 安 
全 性 而 言 ， 这 意味 着 什么 ? 通过 使 用 复制 能 多 大 程度 上 克服 弱点 ? (第 35 页 ， 第 37 页 ) 
2.6 列 出 易 受 不 可 靠 程 序 (从 远程 站 点 下 载 并 在 本 地 运行 的 程序 ) 攻击 的 本 地 资源 的 类 型 。 
(第 37 页 ) 
2.7 通过 实例 说 明 使 用 移动 代码 的 好 处 。 (第 37 页 ) 
2.8 对 于 访问 由 服务 器 管理 的 共享 数据 的 应 用 ， 什 么 因素 影响 应 用 的 响应 能 力 ? 描述 补救 的 方法 
并 讨论 其 有 效 性 。 (第 43 页 ) 
2.9 区 分 缓冲 和 缓存 。 (第 45 页 ) 
2.10 给 出 在 分 布 式 系统 中 能 /不 能 通过 使 用 元 余 来 容忍 的 软 硬 件 故 障 的 例子 。 在 适当 的 情况 下 ， 使 
用 何 种 程度 的 元 余 能 使 系统 容错 ? (第 46 页 ) 


2.11 设计 一 个 简单 的 服务 器 ， 它 不 用 访问 其 他 服务 器 就 可 完成 客户 请 求 。 解 释 为 什么 它 通 常 不 可 
能 对 服务 器 响应 客户 请 求 的 时 间 设 置 限制 。 需 要 怎样 做 才能 使 服务 器 可 以 在 一 定时 间 范 围 内 
执行 请 求 ? 这 是 一 个 实用 的 选择 吗 ? (第 48 页 ) 

2.12 针对 影响 通信 通道 上 的 两 个 进程 之 间 传 递 消 息 所 花 的 时 间 的 每 个 因素 ， 说 明 需 要 对 哪些 影响 
总 时 间 的 度量 设置 限制 。 为 什么 在 当前 通用 的 分 布 式 系统 中 不 提供 这 些 度量 ? (第 49 页 ) 

2.13 网 络 时 间 协 议 服务 能 用 于 同步 计算 机 时 钟 ， 解 释 为 什么 即使 使 用 该 服务 ， 也 不 能 对 两 个 时 钟 
之 间 的 不 同 也 不 能 给 出 确定 的 范围 。 (第 49 页 ) 

2.14 考虑 在 异步 分 布 式 系统 中 使 用 的 两 个 通信 服务 。 在 服务 A 中 ， 消 息 可 能 丢失 、 被 复制 或 延迟 ， 
校 验 和 仅 应 用 到 消息 头 。 在 服务 B 中 ， 消 息 可 能 丢失 、 延 迟 或 发 送 得 太 快 以 致 接收 方 无 法 处 
理 它 ， 但 到 达 目 的 地 的 消息 的 内 容 一 定 正确 。 

描述 上 面 两 个 服务 会 出 现 的 故障 类 型 ， 根 据 它们 对 有 效 性 和 完整 性 的 影响 为 故障 分 类 。 
服务 B 能 被 描述 成 可 靠 的 通信 服务 吗 ? (第 53 页 ， 第 56 页 ) 

2.15 有 一 对 进程 X 和 Y， 它 们 使 用 练习 2.14 中 的 通信 服务 B 相 互通 信 。 假 设 X 是 客户 而 Y 是 服务 器 ， 
调用 由 从 X 到 Y 的 请 求 消息 开始 ， 然 后 Y 执 行 该 请 求 ， 最 后 从 Y 到 X 发 送 应 答 。 思 考 这 样 一 个 
调用 会 出 现 的 故障 类 型 。 (第 53 页 ) 
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2.16 假设 一 个 基本 的 磁盘 读 操作 有 时 读 取 的 值 与 写 入 的 值 不 同 ， 叙述 基 本 的 磁盘 读 操 作 会 出 现 的 
故障 类 型 。 曾 述 如 何 屏蔽 故障 以 产生 另 一 种 良性 故障 ， 并 对 如 何 屏 项 良性 故障 提出 建议 。 


(第 56 页 ) 
2.17 定义 可 靠 通信 的 完整 性 ， 列 出 所 有 来 自用 户 和 系统 组 件 的 对 完整 性 的 可 能 的 威胁 。 面 对 每 种 
威胁 ， 要 采取 什么 手段 确保 完整 性 ? (第 56 页 ， 第 59 页 ) 


2.18 简 述 可 能 出 现在 因特网 上 的 几 类 主要 的 安全 威胁 (对 进程 的 威胁 、 对 通信 通道 的 威胁 、 服 务 
拒绝 )。 (第 58 页 ) 





第 3 章 网络 和 网 际 互 连 


分 布 式 系统 使 用 局 域 网 、 广 域 网 和 互连网 络 进行 通信 。 底 层 网 络 的 性 能 、 可 靠 性 、 可 伸缩 性 、 
移动 性 以 及 服务 质量 都 影响 着 分 布 式 系统 的 行为 ， 因 而 也 影响 这 些 系统 的 设计 。 为 满足 用 户 需求 
的 改变 ， 无 线 网 络 和 有 服务 质量 保障 的 高 性 能 网 络 应 运 而 生 。 

计算 机 网 络 所 基于 的 原理 包括 协议 分 层 、 包 交换 、 路 由 以 及 数据 流 等 ， 网 际 互 连 技术 使 得 异 
构 网 络 可 以 集成 在 一 起 。 因 特 网 就 是 一 个 重要 的 例子 。 它 的 协议 广泛 地 应 用 于 分 布 式 系统 中 。 因 
特 网 中 使 用 的 寻 址 以 及 路 由 方案 经 受 了 因特网 快速 成 长 所 带 来 的 影响 。 它 们 也 被 不 断 地 修正 ， 以 
适应 未 来 的 发 展 并 满足 新 的 对 移动 性 、 安 全 性 以 及 服务 质量 的 需求 。 

在 实例 研究 中 将 给 出 特定 网 络 的 技术 设计 ， 包 括 以 太 网 、IEEE 802.11 (WiFi) 和 蓝牙 无 线 网 

络 以 及 异步 传输 模式 ‘ATM) 网 络 。 


3.1 简介 


要 构建 分 布 式 系统 所 使 用 的 网 络 ， 首 先 需 要 众多 的 传输 介质 ， 包 括 电线 、 电 缆 、 光 纤 以 及 无 
线 频道 ， 然 后 需要 一 些 硬件 设备 ， 包 插 路 由 器 、 交 换 机 、 网 桥 、 集 线 器 、 转 发 器 和 网 络 接 日 ， 最 
后 还 需要 软件 组 件 ， 包 括 协议 栈 、 通 信和 处 理 器 和 了 驱动器。 上述 因 素 都 会 影响 分 布 式 系统 和 应 用 程 
序 所 能 达到 的 最 终 功能 和 性 能 。 我 们 把 为 分 布 式 系 统 提供 通信 设施 的 软 硬 件 组 件 称 为 通信 子 系统 。 
计算 机 和 其 他 使 用 网 络 进行 通信 的 设备 称 为 主机 。 术 语 节 点 指 的 是 在 网 络 上 的 所 有 计算 机 或 者 交 
换 设 备 。 

因特网 是 一 个 通信 子 系统 ， 它 为 所 有 接 人 的 主机 提供 通信 和 服务。 因特网 连接 了 大 量 采 用 不 同 
网 络 技术 的 子 网 。 一 个 子 网 是 一 个 路 由 单位 (负责 在 因特网 不 同 部 分 之 间 传递 数据 ) ， 它 包含 一 组 
互 连 的 节点 ， 它 们 之 间 采 用 相同 的 技术 进行 和 通信。 因特网 的 基础 设施 包括 体系 结构 和 软 硬 件 组 件 ， 
它们 将 不 同 的 子 网 有 效 地 集成 为 一 个 数据 通信 服务 。 

通信 子 系统 的 设计 在 很 大 程度 上 受 组 成 分 布 式 系 统 的 计算 机 所 使 用 的 操作 系统 的 特征 的 影响 ， 
也 受 与 之 互 连 的 网 络 的 影响 。 本 章 将 探讨 网 络 技术 对 通信 子 系统 的 影响 ， 操 作 系 统 问 题 将 在 第 6 
章 讨论 。 

本 章 将 从 分 布 式 系统 的 通信 需求 角度 ， 对 计算 机 网 络 加 以 概述 。 不 熟悉 计算 机 网 络 的 读者 应 
该 将 本 章 作为 本 书后 续 内 容 的 基础 ， 而 熟悉 网 络 的 读者 也 会 发 现 本 章 对 计算 机 网 络 的 诸多 方面 ， 
尤其 是 和 分 布 式 系统 有 关 的 方面 进行 了 总 结 。 

计算 机 发 明 后 不 久 ， 人 们 就 有 了 计算 机 网 络 的 构想 。1961 年 ，Leonard Kleinrock[1961] 第 一 次 
在 一 篇 文章 中 提出 了 包 交 换 的 理论 基础 。1962 年 1.C.R. Licklider 和 W. Clark， 这 两 位 于 20 世 纪 60 年 
代 初 期 在 MIT 参 加 第 一 个 分 时 系统 的 开发 的 科学 家 在 一 篇 论文 中 讨论 了 交互 计算 和 广域网 络 的 巨大 
囊 能 ， 这 在 某 些 方面 预示 了 因特网 的 将 来 [DEC 1990]。1964 年 ，Paul Baran 描 绘 出 了 一 个 可 靠 、 有 
效 的 广域网 的 实用 设计 的 轮廓 [Baran 1964]。 更 多 的 有 关 计 算 机 网 络 和 因特网 历史 的 资料 和 链接 可 
以 在 下 列 资源 中 找到 [www.isoc.org, Comer 2006, Kurose and Ross 2000]。 

本 节 后 面 的 部 分 将 讨论 分 布 式 系统 的 通信 需求 。3.2 节 将 对 网 络 类 型 进行 概括 ，3.3 节 将 介绍 计 
算 机 网 络 原理 ，3.4 节 将 专门 讨论 因特网 。3.5 节 将 给 出 有 关 以 太 网 、IEEE 802.11 (WiFi)、 蓝 牙 和 

ATM 网 络 技术 的 实例 研究 。 
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分 布 式 系统 的 连 网 问题 


早期 的 计算 机 网 络 只 能 满足 少量 的 、 相 对 简单 的 应 用 需求 ， 支 持 像 文件 传输 、 远 程 登 录 、 电 
子 邮件 、 新 闻 组 这 样 的 网 络 应 用 。 随 着 分 布 式 系统 的 不 断 发 展 ， 分 布 式 应 用 程序 能 访问 共享 的 文 
件 或 其 他 资源 ， 为 满足 交互 应 用 的 需求 ， 必 须 提出 更 高 的 性 能 标准 。 

近来 ， 随 着 因特网 的 发 展 和 商业 化 以 及 多 种 新 的 使 用 模式 的 出 现 ， 对 于 网 络 可 靠 性 、 可 伸缩 
性 、 移 动 性 、 安 全 性 和 服务 质量 提出 了 更 高 要 求 。 本 节 将 详细 介绍 这 些 需求 的 本 质 。 

性 能 ”我们 感 兴趣 的 网 络 性 能 参数 是 影响 两 个 互 连 计算 机 间 消 息 传输 速度 的 参数 。 它 们 是 延迟 
和 点 到 点 的 数据 传输 率 。 

延迟 是 指 执行 发 送 操 作 之 后 数据 到 达 目 的 地 之 前 这 一 段 时 间 。 它 可 以 用 传输 一 个 空 消息 的 时 
间 来 度量 。 这 里 我 们 只 考虑 网 络 延迟 ， 它 是 2.3.1 节 定义 的 进程 一 进程 延迟 的 一 部 分 。 

数据 传输 率 是 指 一 旦 传输 过 程 开 始 ， 数 据 在 网 络 上 两 台 计算 机 间 传 输 的 速度 ， 通 常用 bps ( 比 
特 / 秒 ) 作为 单位 。 

根据 上 述 定 义 ， 要 在 两 个 计算 机 间 传 输 长 度 为 length 比 特 的 消息 ， 网 络 所 需 的 时 间 为 : 

消息 传输 时 间 = 延 迟 tlength/ 数 据 传输 率 

上 式 还 需 满足 以 下 条 件 : 消息 长 度 不 能 超过 网 络 所 允许 的 最 大 值 。 长 消息 会 被 分 割 成 多 个 段 ， 
传输 时 间 是 多 个 段 传输 时 间 的 总 和 。 

网 络 的 传输 率 主要 是 由 它 的 物理 特征 决定 的 ， 而 延迟 则 主要 由 软件 开销 、 路 由 延迟 和 与 负载 
有 关 的 统计 因素 ( 源 于 访问 传输 信道 的 冲突 性 命令 ) 决定 。 分 布 式 系统 的 许多 在 进程 之 间 传 送 的 
许多 规模 消息 很 小 ， 因 此 延迟 在 决定 性 能 上 与 数据 传输 率 有 相同 或 更 重要 的 意义 。 

网 络 的 系统 总 带宽 是 度量 吞吐 量 的 指标 ， 它 表示 在 给 定 的 时 间 内 网 络 可 以 传输 的 数据 总 量 。 
在 许多 局 域 网 技术 中 (如 以 太 网 ) ， 每 一 次 数据 传输 都 使 用 了 整个 网 络 的 传输 容量 ， 这 时 系统 的 带 
宽 也 就 是 数据 传输 率 。 但 在 大 部 分 广域网 中 ， 消 息 可 以 同时 在 几 个 不 同 的 信道 中 传输 ， 这 时 系统 
总 带宽 和 传输 率 没有 直接 的 关系 。 但 是 ， 在 网 络 过 载 时 网 络 性 能 会 恶化 ， 过 载 是 指 同 时 在 网 络 中 
传输 的 消息 过 多 。 过 载 给 网 络 的 延迟 、 数 据 传输 率 以 及 系统 总 带宽 所 带 来 的 影响 与 网 络 技术 紧密 
相关 。 

现在 考虑 客户 一 服务 器 通信 的 性 能 。 在 负载 较 轻 的 本 地 网 环境 (包括 系统 开销 ) 下 ， 节 点 之 
间 传 输 一 个 短 的 请 求 消息 和 收 到 一 个 短 的 应 答 的 总 时 间 通常 在 半 毫 秒 左右 ， 而 调用 一 个 本 地 内 存 
中 的 应 用 层 对 象 的 操作 ， 所 需 的 时 间 在 微 秒 以 内 。 也 就 是 说 ， 即 使 网 络 性 能 发 展 得 再 快 ， 在 本 地 
网 中 访问 共享 资源 的 时 间 依然 要 比 访问 已 经 在 本 地 内 存 中 的 资源 慢 1000 倍 以 上 。 但 是 网 络 的 延迟 
和 带宽 经 常 超越 硬盘 的 性 能 ， 对 于 访问 一 个 本 地 的 Web 服 务 器 或 者 文件 服务 器 ， 同 时 对 经 常 使 用 
的 文件 放 入 一 个 大 的 缓 在， 那么 其 性 能 通常 可 以 达到 或 超过 直接 访问 本 地 硬盘 文件 的 性 能 。 

信息 在 因特网 上 往返 的 延迟 在 50 ~750ms 之 闻 ， 平 均值 为 200ms 左 右 ， 所 以 在 因特网 上 传送 请 
求 比 在 快速 本 地 网 络 上 传送 大 约 慢 100 倍 。 这 个 时 间 差 缘 于 路 由 器 的 交换 延迟 和 网 络 电路 的 竞争 。 

6.5.1 节 将 详细 讨论 和 比较 本 地 操作 和 远程 操作 的 性 能 问题 。 

可 伸缩 性 ”计算 机 网 络 已 成 为 现代 社会 不 可 缺少 的 基础 设施 。 图 1-4 显 示 了 近 25 年 来 连 信 因 特 
网 中 计算 机 主机 数量 的 增长 情况 ， 林 来 因特网 的 大 小 将 可 能 和 地 球 土 人 口 数量 相当 ， 到 那 时 网 络 
上 将 有 数 十 亿 的 节点 和 上 亿 可 用 的 主机 。 

这 些 数字 表明 了 因特网 必须 能 够 处 理 未 来 在 数量 和 负载 上 的 变化 ， 目 前 的 网 络 技术 甚至 不 能 
很 好 地 应 付 现在 的 网 络 规模 ， 但 它们 已 经 表现 得 相当 不 错 了 。 为 了 适应 因特网 下 一 阶段 的 发 展 ， 
技术 人 员 正 在 对 寻 址 和 路 由 机 制 进行 一 些 实质 性 的 改变 ， 这 方面 内 容 将 在 3.4 节 加 以 讨论 。 对 于 简 
单 的 客户 一 服务 器 应 用 (比如 Web) ， 未 来 的 数据 流量 的 增长 至 少将 和 上 网 用 户 数量 成 正比 。 因 特 
网 基础 设施 的 能 力 是 否 能 适应 这 样 的 增长 ， 必 须 依赖 经 济 学 的 使 用 ， 特 别 是 在 对 用 户 的 收费 和 实 
际 发 生 的 通信 模式 方面 一 一 比如 应 根据 用 户 的 位 置 范围 做 某 种 处 理 。 
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可 靠 性 ”2.3.2 节 关于 故障 模型 的 讨论 描述 了 通信 错误 所 带 来 的 影响 。 许 多 应 用 可 以 从 通信 故 
障 中 恢复， 因此 并 不 要 求 保证 无 错 通信 。 端 对 端 间 的 争论 (参见 2.2.1 节 ) 也 进一步 支持 了 “通信 
子 系统 无 需 提供 完全 无 错 的 通信 ”这 一 观点 ， 通 信 错 误 的 检 误 和 校正 通常 由 应 用 级 软件 完成 。 大 
多 数 物 理 传输 介质 的 可 靠 性 很 高 。 错 误 通常 是 由 于 发 送 方 或 接收 方 的 软件 故障 〈 例 如 ， 接 收 方 计 
算 机 未 能 接收 到 一 个 包 ) 或 者 缓冲 溢出 造成 的 ， 而 不 是 网 络 错误 造成 的 。 

安全 性 ”第 7 章 将 列 出 分 布 式 系统 获得 安全 性 所 需 的 需求 和 技术 。 大 多 数组 织 采 用 的 第 一 层 防 
御 是 为 他 们 的 网 络 和 计算 机 设置 一 个 防火 墙 。 防 火 墙 在 组 织 的 内 部 网 和 因特网 之 间 创 建 了 一 个 保 
护 的 边界 ， 其 目的 是 保护 组 织 中 所 有 计算 机 上 的 资源 不 被 外 部 用 户 或 进程 访问 ， 并 控制 组 织 中 的 
用 户 使 用 防火 墙 外 的 资源 。 

防火 墙 在 网 关上 运行 ， 所 谓 网 关 是 企业 内 部 网 入 口 点 处 的 计算 机 。 防 火 墙 接收 并 且 过 滤 所 有 
进出 这 个 组 织 的 消息 。 防 火 墙 通常 按照 组 织 的 安全 策略 进行 配置 ， 允 许 某 些 进入 或 流出 的 消息 遂 
过 并 拦截 其 他 消息 。 这 个 内 容 我 们 将 在 3.4.8 节 中 继续 讨论 。 

为 了 让 分 布 式 应 用 在 防火 墙 的 限制 下 依然 可 以 执行 ， 我们 需要 建立 一 个 安全 的 网 络 环境 ， 使 
得 大 部 分 分 布 式 应 用 可 以 被 部 署 ， 且 具有 端 对 端的 认证 、 私 密 性 和 安全 性 。 使 用 密码 技术 可 达到 
这 种 细 粒 度 的 且 更 灵活 的 安全 形式 。 它 通常 应 用 于 通信 子 系统 以 上 的 层次 ， 因 此 不 在 这 里 讨论 ， 
而 是 在 第 7 章 进行 讨论 。 但 也 有 一 些 例外 的 要 求 ， 包 括 保护 网 络 组 件 (如 路 由 器 ) 的 操作 不 会 受到 
未 授权 的 干涉 ， 对 移动 设备 和 其 他 外 部 节点 建立 安全 链接 以 便 它们 能 参与 到 一 个 安全 的 企业 内 部 
网 一 一 虚拟 私 网 VPN) 的 概念 ，VPN 将 在 3.4.8 节 讨论 。 

移动 性 移动 设备 (如 笔记 本 电脑 、PDA 和 可 连 网 的 移动 电话 ) 常常 改变 所 处 的 位 置 ， 可 以 在 
方便 的 网 络 连 接 处 重新 连 人 人 ， 或 者 甚至 在 移动 的 时 候 使 用 。 虽 然 无 线 网 络 提供 了 对 这 些 设 备 的 连 
接 ， 但 因特网 的 寻 址 和 路 由 机 制 都 是 在 移动 设备 出 现 之 前 开发 的 ， 并 不 太 适 合 与 不 同 子 网 进行 间 
歇 连 接 的 需求 。 虽 然 因 特 网 机 制 已 经 有 所 改进 并 被 扩展 来 支持 移动 性 ， 但 随 着 未 来 移动 设备 使 用 
数量 的 增长 ， 还 必须 进行 更 进一步 地 开发 。 

服务 质量 ”第 2 章 中 ， 我 们 把 服务 质量 定义 为 “在 传输 和 处 理 实时 多 媒体 数据 流 时 满足 期 限 要 
求 的 能 力 ”"。 这 也 给 计算 机 网 络 提出 了 新 的 要 求 。 传 输 多 媒体 数据 的 应 用 要 求 所 使 用 的 通信 通道 有 
足够 的 带宽 和 并 对 延迟 有 所 限制 。 一 些 应 用 能 动态 地 改变 它们 的 要 求 ， 并 指定 可 接受 的 最 低 服务 
质量 和 期 望 的 最 佳 值 。 第 17 章 将 讨论 如 何 提供 这 些 保证 和 相关 的 维护 。 

组 播 ”分 布 式 系统 中 大 部 分 的 通信 是 在 一 对 进程 之 间 进 行 的 ， 但 也 经 常 有 一 对 多 通信 的 需求 。 
显然 这 可 以 用 向 多 个 地 址 发 送 来 模拟 ， 但 这 种 方式 所 花 的 代价 比 真 正 需要 花费 的 代价 要 大 ， 而 且 
也 不 具备 应 用 所 需 的 容错 性 。 因 为 这 些 原因 ， 许 多 网 络 技术 都 支持 同时 向 多 个 接收 方 传递 消息 。 


3.2 网 络 类 型 


本 节 介 绍 主要 用 于 支持 分 布 式 系统 的 网 络 类 型 : 个 域 网 、 局 域 网 、 广 域 网 、 城 域 网 以 及 它们 
的 无 线 变 体 。 互 连 网 络 (如 因特网 ) 是 基于 这 些 类 型 的 网 络 构造 出 来 的 。 图 3-1 给 出 了 下 面 讨论 的 
各 种 网 络 的 性 能 特征 。 

一 些 网 络 类 型 的 名 字 经 常会 被 混淆 ， 因 为 它们 看 上 去 指 的 是 物理 范畴 (局 域 、 广 域 )， 其 实 它 
们 也 确定 了 物理 传输 技术 和 底层 的 协议 。 对 于 局 域 网 和 广域网 来 说 ， 这 些 方面 是 不 一 样 的 ， 尽 管 
一 些 网 络 技术 ， 如 ATM (异步 传输 模式 ) 既 适 用 于 局 域 网 又 适用 于 广域网 ， 一 些 无 线 网 络 也 同时 
支持 局 域 网 和 城 域 网 传输 。 

我 们 把 由 很 多 互 连 的 网 络 组 成 ， 并 且 集 成 起 来 提供 单一 数据 通信 介质 的 网 络 称 为 互连网 络 。 
因特网 就 是 典型 的 互连网 络 ， 它 由 数 百 万 的 局 域 网 、 城 域 网 和 广域网 组 成 。 我 们 将 在 3.4 节 详细 描 
述 它 的 实现 。 
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实 例 范 带宽 (Mbps) 延迟 (ms) 
有 线 : 
LAN 以 太 网 1 一 2kms 10~1000 1~10 
WAN IP 路 由 世界 范围 0.010~ 600 100 ~ 500 
MAN AT™ 2 一 50kms 1 一 150 10 
互连网 络 因特网 世界 范围 0.5~600 100~ 500 
无 线 ， 
WPAN 蓝牙 〈IEEE 802.15.1) 10~30m 0.5~2 5~20 
WLAN WiFi (IEEE 802.11) 0.15~ 1.5km 2~54 5~20 
WMAN WiMAX (IEEE802.16) 5 ~ SOkm 1.5~20 5~20 
WWAN GSM, 3G 电 话 网 世界 范围 0.010~2 100 ~ 500 

图 3-1 网 络 性 能 


个 域 网 “个 域 网 (Personal Area Network, PAN) 是 本 地 网 的 子 类 ， 其 中 一 个 用 户 携带 的 各 种 
数字 设备 由 一 个 廉价 、 低 能 量 网 络 连接 起 来 。 有 线 PAN 不 是 太 重 要 ， 因 为 很 少 有 用 户 希 望 自己 身 
上 有 有 线 网 络 ， 但 由 于 移动 电话 、PDA、 数 码 相机 、 音 乐 播放 器 等 个 人 设备 数量 的 增加 ， 无 线 个 
域 网 (WPAN) 的 重要 性 也 随 之 增加 。 我 们 将 在 3.5.3 节 描述 蓝牙 WPAN，。 

局 域 网 ”局域网 (Local Area Network, LAN) 在 由 单一 通信 介质 连接 的 计算 机 之 间 以 相对 高 
的 速度 传输 消息 ， 这 里 的 通信 介质 包括 双 绞 线 、 同 轴 电 缆 和 光纤 。 网 段 是 指 为 某 个 部 门 或 者 一 个 
楼 层 中 很 多 计算 机 服务 的 那 部 分 电缆 。 在 段 中 ， 消 息 不 需要 路 由 ， 因 为 网 段 中 的 计算 机 都 有 直接 
的 连接 。 整 个 系统 的 带宽 由 连接 在 网 段 范 围 内 的 计算 机 共享 。 大 一 些 的 局 域 网 ， 比 如 校园 网 或 者 
办 公 楼 中 的 网 络 ， 由 许多 网 段 组 成 ， 段 之 间 通 过 交换 机 或 集线器 互 连 ( 详 见 3.3.7 节 )。 对 于 局 域 网 
来 说 ,除了 消息 流量 很 大 的 时 候 ， 系 统 总 带宽 很 高 ， 而 延迟 时 间 很 短 。 

20 世 纪 70 年 代 ， 人 们 开发 了 多 种 局 域 网 技术 一 一 以 太 网 、 令 牌 环 和 有 槽 环形 网 ， 这 些 技术 都 提 
供 了 有 效 和 高 性 能 的 解决 方案 ， 但 最 终 以 太 网 成 为 有 线 局 域 网 的 主导 技术 。 它 产生 于 20 世 纪 70 年 
代 的 早期 ， 当 时 的 带宽 是 10Mbps (每 秒 100 万 比特 )， 最 近 扩展 为 100Mbps 和 1000Mbps (每 种 1G 比 
特 )。 以 太 网 操作 的 原理 将 在 3.5.1 节 中 加 以 描述 。 

局 域 网 的 适用 性 很 强 ， 它 可 以 在 几乎 所 有 的 工作 环境 中 工作 ， 只 需 有 一 两 台 以 上 的 个 人 计算 
机 或 者 工作 站 ， 它 们 的 性 能 对 实现 分 布 式 系统 和 应 用 来 说 已 经 足够 了 。 以 太 网 技术 缺乏 许多 多 媒 
体 应 用 所 需 的 延迟 和 带宽 保证 ， 但 ATM 网 络 的 开发 填补 了 这 个 空白 ,但 它们 昂贵 的 开销 限制 了 它 
们 在 局 域 网 应 用 中 的 使 用 。 而 高 速 以 太 网 采用 交换 模式 加 以 部 署 ， 在 很 大 程度 上 克服 了 上 述 缺 点 ， 
虽然 它 的 有 效 性 不 如 ATM 网 络 。 

广域网 “广域网 (Wide Area Network, WAN) 在 属于 不 同 组 织 以 及 可 能 被 远 距离 分 隔 开 的 节 
点 之 间 以 较 低 速度 传递 消息 。 这 些 节点 可 能 分 布 在 不 同 的 城市 、 国 家 甚至 不 同 的 洲 。 其 通信 介质 
是 连接 专用 计算 机 ( 称 为 路 由 器) 的 通信 和 电路。 路 由 器 管理 整个 通信 和 网络， 并 将 消息 或 数据 包 路 
电 到 指定 的 地 点 。 在 大 多 数 的 网 络 中 ， 路 由 操作 在 每 个 路 由 点 都 引进 了 一 定 的 延迟 ， 因 此 消息 传 
送 总 的 延迟 取决 于 消息 经 过 的 路 由 和 消息 经 过 的 网 络 段 的 流量 负载 。 在 如 今 的 网 络 中 ， 这 些 延 迟 
可 能 达到 0.1~0.5s。 大 多 数 介质 的 电信 号 速度 接近 光速 ， 这 就 给 长 距离 网 络 的 传输 延迟 设置 了 一 
个 下 限 。 举 例 来 说 ， 一 个 信号 从 欧洲 到 澳大利亚 通过 陆路 连接 的 传播 时 间 大 约 是 0.13s， 而 地 球 表 
面 上 任意 两 个 点 之 闻 经 过 地 球 同步 卫星 传输 的 信和 号 有 大 约 0.20s 的 延迟 。 

因特网 上 可 用 的 带宽 也 变化 很 大 。 在 部 分 因特网 上 速度 可 以 达到 600Mbps， 但 通常 情况 下 ， 传 
和 输 大 量 数据 的 速度 还 是 1!~ 10Mbps。 

城 域 网 “ 城 域 网 (Metropolitan Area Network, MAN) 基于 城镇 或 城市 里 高 带宽 的 铜 线 和 光纤 
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电缆 ， 在 50km 的 范围 内 传输 视频 、 音 频 或 者 其 他 数据 。 人 们 已 经 使 用 了 多 种 技术 来 实现 在 MAN 中 
的 数据 的 路 由 ， 例 如 ， 从 以 太 网 到 ATM。 

以 目前 在 许多 城市 可 用 的 DSL (数字 用 户 线 ) 和 电缆 调制 解 调 器 连接 为 例 。DSL 通 常 使 用 电话 
交换 系统 中 的 ATM 交 换 机 (参见 3.5.4 节 ) (在 已 有 的 用 于 电话 连接 的 电线 上 用 高 频 信 号 ) 将 双 绞 线 
上 的 数字 信号 以 大 约 0.25 ~ 8.0Mbps 的 速度 路 由 到 用 户 的 家 或 办 公 室 中 。 因 为 DSL 用 户 连接 使 用 的 
是 双 绞 线 ， 所 以 限制 用 户 和 交换 机 的 距离 要 在 5.5km 之 内 。 电 缆 调 制 解 调 器 连接 是 在 同 轴 电 绕 架 构 
的 有 线 电视 网 络 上 使 用 模拟 信和 号 传输 ， 速 度 可 以 达到 1.3Mbps， 其 范围 大 大 地 超过 了 DSL 。 

无 线 局 域 网 无 线 局 域 网 (Wireless Local Area Network, WLAN) 用 于 替代 有 线 LAN， 为 移动 
设备 提供 连接 ， 或 者 说 ， 使 得 家 里 和 办 公 楼 内 的 计算 机 不 需要 有 线 的 基础 设施 就 能 相互 连接 并 连 
到 因特网 上 。 它 们 都 是 广泛 使 用 的 IEEE 802.11 标 准 (WiFi) 的 变 体 ， 在 1.5km 范 围 内 提供 10 ~ 
100Mbps 的 带宽 。3.5.2 节 将 给 出 这 些 方法 的 详细 介绍 。 

无 线 城 域 网 IEEE 802.16 WiMAX 标 准 针对 这 类 网 络 。 无 线 城 域 网 (Wireless Metropolitan Area 
Network, WMAN) 旨 在 替换 家 庭 和 办 公 楼 中 的 有 线 连接 ， 并 在 某 些 应 用 中 超越 802.11 WiFi 网 络 。 

无 线 广域网 “无线 广域网 (Wireless Wide Area Network, WWAN) 大 部 分 移动 电话 网 络 基 于 
数字 无 线 网 络 技术 ， 如 世界 上 大 部 分 国家 采用 的 GSM (全 球 移动 通信 系统 ) 标准 。 移 动 电话 网 络 
通过 使 用 蜂窝 无 线 连接 可 在 广阔 的 地 域 (通常 是 整个 国家 或 整个 大 洲 ) 上 运行 ， 它 们 的 数据 传输 
设施 为 便携 设备 提供 了 到 因特网 的 广 域 移动 连接 。 上 述 蜂 窝 网 络 提供 的 数据 传输 率 相 对 较 低 ， 只 
有 9.6~33kbps， 而 “第 三 代 ” 移 动 电 话 网 络 在 几 公里 的 蜂窝 半径 内 提供 128 ~ 384kbps 的 数据 传输 
率 ， 在 更 小 的 蜂窝 半径 内 提供 至 多 2Mbps 的 数据 传输 率 。 对 移动 和 无 线 网 络 领域 快速 发 展 的 技术 感 
兴趣 的 读者 可 参考 Stojmenovic 的 手册 [2002]。 

互连网 络 互连网 络 是 一 个 通信 子 系统 ， 它 将 多 个 网 络 连 接 起 来 提供 公共 数据 通信 设施 ， 这 些 
数据 通信 设施 覆盖 了 单个 网 络 中 的 技术 和 协议 以 及 用 于 互 连 的 方法 。 

开发 可 扩展 、 开 放 的 分 布 式 系统 ， 需 要 用 到 互连网 络 。 分 布 式 系统 的 开放 性 特征 意 指 分 布 式 
系统 所 使 用 的 网 络 应 该 是 一 个 可 扩展 到 含有 大 量 计 算 机 的 网 络 ， 而 单个 网 络 的 地 址 空间 有 限 ， 且 
一 些 网 络 有 性 能 限制 ， 都 不 宜 于 大 规模 地 使 用 。 在 互连网 络 中 ， 可 将 众多 的 局 域 网 和 广域网 技术 
集成 起 来 为 各 类 用 户 提供 连 网 能 力 。 这 样 ， 互 连 网 络 给 分 布 式 系 统 的 通信 提供 了 很 多 开放 系统 所 
具有 的 好 处 。 

互连网 络 是 由 多 种 网 络 组 建 而 成 的 。 它 们 的 互 连 依靠 称 为 路 由 器 的 专用 计算 机 和 称 为 网 关 的 
通用 计算 机 ， 和 集成 通信 子 系统 由 软件 层 实现 ， 它 为 互连网 络 的 计算 机 提供 寻 址 以 及 数据 传输 功能 。 
可 以 把 互连网 络 想象 成 一 个 “虚拟 网 络 ”， 它 是 在 由 底层 网 络 、 路 由 器 、 网 关 组 成 的 通信 介质 上 禾 
盖 一 个 互连网 络 层 而 构造 出 来 的 。 因 特 网 是 网 际 互 连 的 一 个 主要 的 例子 ， 它 所 使 用 的 TCP/IP 协 议 
是 上 面 提 到 的 集成 层 的 一 个 例子 。 

网 络 错误 图 3-1 的 比较 没有 提 到 的 一 点 是 不 同 网 络 中 会 发 生 的 故障 频率 和 类 型 。 除 了 在 无 线 
网 络 中 数据 包 经 常会 因为 外 部 干扰 而 丢失 之 外 ， 其 他 各 种 网 络 的 底层 数据 传输 介质 的 可 靠 性 都 很 
高 。 但 在 所 有 网 络 中 ， 都 会 由 于 处 理 延 迟 、 交 换 机 缓冲 区 溢出 或 者 目的 节点 缓冲 区 溢出 而 引起 数 
据 包 丢失 ， 而 这 也 是 迄今 为 止 数据 包 技 失 最 常见 的 原因 。 

数据 包 到 达 的 顺序 可 以 与 发 送 的 顺序 不 一 样 ， 这 种 情况 只 出 现在 对 分 离 的 数据 包 可 以 单独 路 
由 的 网 络 一 -主要 是 广域网 中 。 如 果 发 送 方 假设 以 前 发 送 的 数据 包 丢 失 了 ， 那 么 可 以 发 送 数据 包 的 
拷贝 。 数 据 包 被 重 发 后 ， 接 收 方 会 同时 收 到 原 数 据 包 和 重 发 的 数据 包 。 


3.3 网 络 原理 


计算 机 网 络 的 基础 是 20 世 纪 60 年 代 发 展 起 来 的 包 交换 技术 。 它 使 得 发 送 到 多 个 地 址 的 消息 可 
以 共享 同一 条 通信 链接 ， 这 不 同 于 常规 电话 所 采用 的 电路 交换 技术 。 当 链接 可 用 时 ， 数 据 包 按 顺 
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序 排列 在 缓冲 区 中 ， 然 后 发 送 。 通 信和 是 异步 的 -一 消息 经 过 一 段 延迟 到 达 目 的 地 ， 该 延迟 取决 于 数 
据 包 在 网 络 中 传递 所 花费 的 时 间 。 


3.3.1 数据 包 的 传输 


计算 机 网 络 的 大 多 数 应 用 需求 是 按 逻 辑 单元 发 送信 息 或 消息 一 一 任意 长 度 的 数据 串 。 在 消息 传 
递 前 ， 它 被 分 割 成 数据 包 。 形 式 最 简单 的 数据 包 是 长 度 有 限 的 二 进 制 数据 序列 〈 比 特 或 字 节 数组 ) 
以 及 识别 源 和 目的 地 计算 机 的 寻 址 信息 。 使 用 长 度 有 限 的 数据 包 是 为 了 : 

。 网 络 中 的 每 台 计 算 机 能 为 可 能 到 来 的 最 大 的 数据 包 分 配 足 够 的 缓冲 空间 。 

。 避免 长 消息 不 加 分 割地 传递 所 引起 的 为 等 待 通信 通道 空闲 而 出 现 的 过 度 延 迟 。 


3.3.2 数据 流 


我 们 在 第 2 章 中 曾 提 到 , 多 媒体 应 用 中 视频 /音频 流 的 传输 需要 保证 其 速度 和 一 定 范围 内 的 延迟 。 
这 样 的 流 和 数据 包 传输 所 针对 的 基于 消息 的 流量 类 型 有 本 质 上 的 不 同 。 视 频 /音频 流 比 分 布 式 系统 
中 其 他 大 部 分 通信 形式 所 需要 的 带宽 都 要 高 。 

为 了 达到 实时 显示 的 目的 ， 如 果 传 输 的 是 压缩 的 数据 ， 则 视频 流 的 传输 需要 1.5Mbps 的 带宽 ， 
如 果 传 输 的 是 未 压缩 的 数据 ， 则 需要 大 约 120Mbps 的 带宽 。 另 外 ， 和 上 典型 的 客户 一 服务 器 交互 程序 
所 产生 的 断断续续 的 数据 流量 相反 ， 这 种 流 是 连续 的 。 多 媒体 元 素 的 播放 时 间 是 必须 被 显示 的 时 
间 (对 视频 元 素来 说 ) 或 必须 转 成 音频 的 时 间 (对 声音 采样 而 言 ) 。 举 例 来 说 ， 视 频 帧 的 流速 是 每 
秒 24 个 帧 ， 那 么 第 N 帧 的 播放 时 间 是 从 流 开始 传输 后 的 N/24 秒 。 元 素 如 果 述 于 它 的 播放 时 间 到 达 目 
的 地 ， 它 就 不 再 有 用 ， 将 被 接收 进程 丢弃 。 

及 时 传输 这 种 数据 流 依赖 于 具有 一 定 服务 质量 (带宽 、 延 迟 和 可 靠 性 必须 都 有 保证 ) 的 网 络 
连接 。 现 在 所 需要 的 是 建立 起 多 媒体 流 从 源 到 目的 地 的 通道 ， 其 中 路 由 是 预定 义 好 的 ， 在 经 过 的 
节点 上 保留 需要 的 资源 ， 在 通道 中 对 任何 不 规则 的 数据 流 进行 适当 的 缓冲 。 通 过 这 个 通道 ， 数 据 
可 在 要 求 的 速率 下 从 发 送 方 传送 到 接收 方 。 

ATM 网 络 (参见 3.5.4 节 ) 专门 设计 为 提供 高 带宽 和 低 延迟 ， 并 通过 保留 网 络 资源 保证 服务 质 
量 。IPv6 (因特网 新 的 网 络 协议 ， 其 描述 见 3.4.4 节 ) 的 一 个 特色 是 实时 流 中 的 每 一 个 IP 数 据 包 都 
能 在 网 络 层 被 单独 识别 和 处 理 。 

通信 子 系统 若 要 提供 服务 质量 保证 ， 就 要 有 能 预 分 配 网 络 资源 并 强行 执行 这 些 分 配 的 设施 。 
资源 保留 协议 (Resource Reservation Protocol, RSVP) [Zhang et al.1993] 使 得 应 用 能 协商 实时 数据 
流 的 带宽 预 分 配 。 实 时 传输 协议 (Real Time Transport Protocol, RTP) [Schulzrinne et al. 1996] 是 
一 个 应 用 级 数据 传输 协议 ， 它 在 每 个 数据 包 中 包含 了 播放 时 间 和 其 他 定时 要 求 。 要 在 因特网 中 有 
效 实现 这 些 协议 ， 传 输 层 和 网 络 层 都 必须 作出 实质 性 的 改变 。 第 17 章 将 详细 讨论 分 布 式 多 媒体 应 
用 的 需求 。 

3.3.3 交换 模式 


网 络 是 一 组 由 电路 连接 起 来 的 节点 组 成 的 。 为 了 能 在 任意 两 个 节点 间 传 输 信息 ， 交 换 系 统 是 
必 不 可 少 的 。 这 里 我 们 定义 在 计算 机 网 络 中 使 用 的 四 种 交换 。 

广播 广播 是 一 种 不 涉及 交换 的 传输 技术 。 任 何 信息 都 将 被 传 给 每 一 个 节点 ， 由 接收 方 判断 是 
否 接收 。 一 些 LAN 技 术 (包括 以 太 网 ) 是 基于 广播 的 。 无 线 网 络 也 有 必要 基于 广播 ， 但 是 由 于 缺 
少 固定 电路 ， 广 播 只 能 到 达 蜂 请 内 的 节点 。 

电路 交换 电话 网 曾经 是 唯一 的 电信 网 。 它 们 的 操作 非常 容易 理解 当主 叫 方 拨号 时 ， 主 叫 方 
电话 到 本 地 电话 交换 台 的 线路 会 通过 自动 交换 机 连接 到 被 叫 方 的 电话 线 。 长 途 电话 的 拨 叫 过 程 也 
是 类 似 的 ， 只 不 过 要 经 过 多 个 交换 台 而 已 。 这 种 系统 有 时 被 称 为 老式 电话 系统 (POTS ) 。 它 是 典 
型 的 电路 交换 网 络 。 
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包 交 换 计算 机 和 数字 技术 的 诞生 为 电信 和 领域 带 来 了 新 的 契机 。 从 根本 上 说 ， 它 使 得 人 们 可 以 
处 理 和 存储 数据 ， 这 使 得 以 完全 不 同 的 方式 构造 通信 网 络 成 为 可 能 。 这 种 新 的 通信 网 络 叫做 存储 
转发 网 络 。 存 储 转发 网 络 并 不 是 通过 建立 或 取消 连接 来 构造 电路 ， 而 只 是 将 数据 包 从 它 的 源 地 址 
转发 到 目标 地 址 。 在 每 个 交换 节点 上 (也 就 是 几 个 电路 需要 互 连 的 交汇 处 ) 有 一 台 计 算 机 。 数 据 
包 到 达 一 个 节点 后 先 存储 在 这 个 节点 的 内 存 中 ， 再 由 一 个 程序 选择 数据 包 的 外 出 电路 ， 将 它们 转 
发 到 下 一 个 离 它们 目的 地 更 近 的 节点 。 

这 里 没有 什么 全 新 的 内 容 ， 邮 政 系统 就 是 一 个 信件 的 存储 转发 网 络 ， 其 处 理由 人 或 机 器 在 信 
件 分 拣 室 完成 。 而 在 计算 机 网 络 中 ， 数 据 包 的 存储 和 处 理 很 快 ， 即 使 数据 包 路 由 了 许多 节点 ， 也 
能 给 人 们 瞬间 传输 的 假象 。 

是 中 继 ”现实 中 ， 存 储 转发 网 络 中 每 个 节点 转发 一 个 数据 包 需 要 的 时 间 从 几 十 微 秒 到 几 ms 不 
等 ， 这 个 交换 延迟 取决 于 数据 包 的 大 小 、 硬 件 的 速度 和 当时 的 流量 情况 ， 但 它 的 下 限 由 网 络 带宽 
决定 ， 因 为 整个 数据 包 必须 在 它 转发 给 另 一 个 节点 之 前 先 收 到 。 数 据 包 在 到 达 目 的 地 址 前 ， 可 能 
要 通过 很 多 的 节点 。 因 特 网 中 大 多 数据 包 基 于 存储 转发 交换 ， 正 如 我 们 已 经 知道 的 ， 即 使 是 很 小 
的 因特网 数据 包 通常 也 需要 200ms 左 右 的 时 间 到 达 目 的 地 。 这 个 量 级 的 延迟 对 于 电话 会 议 、 视 频 会 
议 这 样 的 实时 应 用 而 言 就 太 长 了 ， 要 维持 高 质量 的 会 谈 ， 延 迟 不 得 超过 50ms。 

帧 中 继 交 换 方法 给 包 交换 网 络 引 入 了 电路 交换 的 一 些 优势 。 它 们 通过 很 快 地 交换 小 的 数据 包 
( 称 为 帧 ) 来 解决 延迟 的 问题 。 交 换 节 点 (通常 是 专用 的 并 行 数字 处 理 器 ) 通过 检测 帧 的 前 几 位 信 
息 来 路 由 帧 。 帧 并 不 作为 一 个 整体 存储 在 节点 中 ， 而 是 以 位 流 的 形式 通过 节点 。ATM 网 络 是 一 个 
最 好 的 例子 ， 我 们 将 在 3.5.4 节 描述 它们 的 操作 。 高 速 ATM 网 络 在 由 很 多 节点 组 成 的 网 络 中 传递 数 
据 包 只 需要 几 十 微 秒 。 

3.3.4 协议 

协议 是 指 为 了 完成 给 定 任务 ， 进 程 间 通 信 所 要 用 到 的 一 组 众所周知 的 规则 和 格式 。 协 议 的 定 
义 包括 两 个 重要 的 部 分 : 

。 必 须 交 换 的 消息 的 顺序 的 规约 。 

。 消息 中 数据 格式 的 规约 。 

众所周知 的 协议 的 存在 使 得 分 布 式 系统 的 软件 组 件 能 独立 地 开发 ， 能 在 代码 次 序 不 一 样 、 数 
据 表达 不 一 样 的 计算 机 上 用 不 同 的 程序 语言 实现 。 

一 个 协议 是 由 分 别 位 于 发 送 方 计算 机 和 接收 方 计算 机 上 的 一 对 软件 模块 实现 的 。 例 如 ， 一 个 
传输 协议 将 任意 长 度 的 消息 从 一 个 发 送 进程 传递 给 一 个 接收 进程 。 想 向 另 一 个 进程 传输 消息 的 进 
程 给 传输 协议 模块 发 出 一 个 调用 ， 并 按 指定 的 格式 传递 消息 。 接 着 传输 软件 负责 将 消息 传递 到 目 
的 地 ， 它 将 消息 分 割 成 指定 大 小 的 数据 包 和 格式 ， 利 用 网 络 协议 〈 另 一 个 低层 的 协议 ) 将 消息 传 
输 到 目的 地 。 接 收 方 计算 机 中 相应 的 传输 协议 模块 通过 网 络 级 协议 模块 接收 这 些 数据 包 ， 并 在 传 
递 给 接收 进程 之 前 ， 进 行 逆向 转换 ， 重 新 生成 消息 。 

协议 层 网 络 软 件 是 按 层 的 层次 结构 排列 的 。 每 一 层 都 为 上 面 的 层 提供 了 相应 的 接口 ， 并 扩展 
了 下 层 通信 系统 的 性 质 。 层 由 与 网 络 相连 的 每 一 个 计算 机 上 的 一 个 模块 表示 。 图 3-2 说 明了 这 个 结 
构 和 通过 分 层 协议 传递 消息 时 的 数据 流 。 每 一 个 模块 看 起 来 都 是 和 网 络 中 另 一 个 计算 机 上 相同 层 
次 的 模块 直接 通信 ， 但 事实 上 数据 并 没有 在 两 个 同 层次 的 协议 模块 之 间 直 接 传输 。 网 络 软件 的 每 
一 层 都 只 通过 本 地 过 程 调用 与 它 的 上 一 层 和 下 一 层 通 信 。 

在 发 送 方 ， 每 一 层 〈 除 了 最 预 层 ， 即 应 用 层 以 外 ) 从 上 一 层 按照 指定 的 格式 接收 数据 项 ， 并 
在 将 其 传送 到 下 一 层 进 行进 一 步 处 理 之 前 ， 进 行 数据 转换 ， 按 下 一 层 的 格式 封装 数据 。 图 3-3 说 明 
了 这 一 过 程 ， 在 图 中 ， 该 过 程 被 应 用 于 OSI 协议 组 的 前 四 层 。 从 图 中 可 以 看 出 ， 数 据 包 的 头 部 包含 
大 部 分 与 网 络 相关 的 数据 项 ， 但 为 了 简洁 起 见 ， 它 省 略 了 在 一 些 数据 包 类 型 中 出 现 的 附加 部 分 ， 
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同时 该 图 也 假设 应 用 层 要 传递 的 应 用 层 消息 的 长 度 小 于 底层 网 络 数据 包 的 最 大 长 度 。 否 则 ， 消 息 
就 要 被 封装 成 几 个 网 络 层 的 数据 包 。 在 接收 方 ， 下 层 接 收 到 的 数据 项 要 进行 一 次 相反 的 转换 ， 再 
传递 到 上 一 层 。 上 层 协议 的 类 型 已 经 包括 在 了 每 层 的 头 部 ， 这 使 得 接收 方 的 协议 栈 能 选择 正确 的 
软件 组 件 来 拆 分 数据 包 。 
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通信 介质 
图 3-2 协议 软件 中 层 的 概念 


由 v 


nm EE 
和 
图 3-3 封装 在 分 层 协议 中 的 应 用 


这 样 ， 每 一 层 为 上 一 层 提供 服务 ， 并 扩展 下 一 层 提 供 的 服务 。 最 下 面 的 是 物理 层 。 它 是 由 通 
信介 质 〈 铜 线 、 光 缆 、 卫 星 通信 信道 或 无 线 电 传输 ) 和 在 发 送 节 点 将 信号 放置 在 通信 介质 上 ， 在 
接收 节点 感应 该 信号 的 模拟 信号 电路 实现 的 。 在 接收 节点 ， 接 收 到 的 数据 项 通过 软件 模块 的 层次 
结构 向 上 传送 ， 在 每 一 层 都 重新 转换 直到 变 成 可 传递 给 接收 进程 的 格式 为 止 。 

协议 组 ”一 套 完整 的 协议 层 被 称 为 协议 组 或 者 协议 栈 ， 这 也 反映 了 分 层 结构 。 图 3-4 显 示 了 与 
国际 标准 组 织 (ISO) 采用 的 开放 系统 互 连 (Open System Interconnection, OSI) 的 7 层 参 考 模 型 
[ISO 1992] 相 一 致 的 协议 栈 。 采 用 OSI 参考 模型 ， 是 为 了 促进 满足 开放 系统 需求 的 协议 标准 的 开发 。 
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图 3-4 ISO 开放 系统 互 连 (OSI) 协议 模型 中 的 协议 层 
图 3-5 总 结 了 OSI 参 考 模型 的 每 一 层 的 目标 。 顾 名 思 义 ， 这 只 是 一 个 用 于 协议 定义 的 框架 ， 而 
不 是 特定 协议 组 的 定义 。 与 OSI 模型 一 致 的 协议 组 必须 在 模型 定义 的 7 层 的 每 一 层 包括 至 少 一 个 特 
定 的 协议 。 


这 层 协 议 是 为 满足 特定 应 用 的 通信 需求 而 设计 的 ， 通 常 定 HTTP、FTP、STMP、 
义 了 一 个 服务 接口 CORBA IIOP 

这 层 协议 将 以 一 种 网 络 表示 传输 数据 ， 这 种 表示 与 计算 机 使 TLS 安全 、CORBA 
用 的 表示 无 关 的 ， 两 种 表示 可 能 完全 不 同 。 如 果 需 要 ， 可 以 数据 表示 
在 这 一 层 对 数据 进行 加 密 

在 这 层 要 实现 可 靠 性 和 适应 性 ， 比 如 故障 检测 和 自动 恢复 SIP 

这 是 处 理 消息 (而 不 是 数据 包 ) 的 最 低 的 一 层 。 消 息 被 定 TCP、UDP 
位 到 与 进程 相连 的 通信 端口 上 。 这 层 的 协议 可 以 是 面向 连接 
的 ， 也 可 以 是 无 连接 的 

在 特定 网 络 中 的 计算 机 间 传 输 数据 包 ， 在 一 个 WAN 或 一 个 IP、ATM 虚 电路 
互连网 络 中 ， 这 一 层 负责 生成 一 个 通过 路 由 器 的 路 径 。 在 单 

-的 LAN 中 不 需要 路 由 

负责 在 有 直接 物理 连接 的 节点 间 传 输 数据 包 。 在 WAN 中 ， Ethernet MAC、 
传输 是 在 路 由 器 间或 路 由 器 和 主机 间 进 行 的 。 在 LAN 中 ， ATM 信 元 传送 、 
传输 是 在 任意 一 对 的 主机 间 进 行 的 PPP 

指 驱动 网 络 的 电路 和 硬件 。 它 通过 发 送 模拟 信号 传输 二 进 Ethernet 基 带 信和 号、 
制 数据 序列 ， 用 电信 号 的 振幅 或 频率 调制 信号 〈 在 电缆 电路 ISDN 

上 ) ， 用 光 信 号 (在 光纤 电路 上 ) ， 或 其 他 电磁 信号 〈 在 无 线 

电 和 微波 电路 上 ) 





图 3-5 OSI 协 议 小 结 


协议 分 层 给 简化 和 概括 访问 网 络 通信 服务 的 软件 接口 带 来 了 实质 性 的 好 处 ， 同 时 也 带 来 了 极 
大 的 性 能 开销 。 通 过 N 层 协议 栈 传 输 一 个 应 用 级 的 消息 ,通常 在 协议 组 中 要 进行 N 次 控制 传输 ， 才 
能 到 达 相 关 的 软件 层 ， 其 中 至 少 有 一 个 是 操作 系统 的 人口， 数据 的 N 份 拷贝 也 作为 了 封装 机 制 的 一 
部 分 。 所 有 这 些 开 销 导 致 应 用 进程 间 的 数据 传输 率 远 低 于 可 用 的 网 络 带宽 。 

图 3-5 包 括 了 在 因特网 中 使 用 的 协议 的 例子 ， 但 因特网 的 实现 在 两 方面 没有 遵循 OSI 模型 。 第 

-， 因 特 网 协议 栈 中 ， 并 没有 清楚 地 区 分 应 用 层 、 表 示 层 、 会 话 层 。 应 用 层 和 表示 层 或 实现 成 单 
独 的 中 间 件 层 或 在 每 个 应 用 内 部 单独 实现 。 这 样 ，CORBA 就 可 以 在 每 个 应 用 进程 包括 的 中 间 件 库 
中 实现 对 象 间 调用 和 数据 表示 (CORBA 的 进一步 讨论 见 第 20 章 )。Web 浏 览 器 和 其 他 的 一 些 需 要 
安全 信道 的 程序 也 以 相似 的 方法 ， 即 采用 过 程 库 方式 的 安全 套 接 字 层 ( 见 第 7 章 )。 

第 二 ， 会 话 层 与 传输 层 集成 在 一 起 。 互 连 网 络 协议 组 包括 应 用 层 、 传 输 层 和 互连网 络 层 。 互 
连 网 络 层 是 一 个 “虚拟 的 ”网 络 层 ， 负 责 将 互连网 络 的 数据 包 传输 到 目的 计算 机 。 互 连 网 络 数据 
包 是 在 互连网 络 上 传递 的 数据 单元 。 

互连网 络 协议 覆盖 在 底层 的 网 络 上 ， 参 见 图 3-6。 网 络 接口 层 接收 互连网 络 数据 包 ， 并 将 其 转 
换 成 适合 每 个 底层 网 络 的 网 络 层 传输 的 数据 包 。 
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数据 包 组 装 在 传输 前 将 消息 分 割 成 多 个 数据 包 并 在 接收 端 重新 组 装 各 个 数据 包 的 任务 通常 是 
由 传输 层 完 成 。 

网 络 层 协议 的 数据 包 包括 头 部 和 数据 域 。 在 大 部 分 网 络 技术 中 ， 数 据 域 是 长 度 可 变 的 ， 其 最 
大 长 度 称 为 最 大 传输 单元 (Maximum Transfer Unit, MTU) 。 如 果 消 息 的 长 度 超过 底层 网 络 层 的 
MTU ， 就 将 其 分 割 为 多 个 大 小 适当 的 块 ， 并 标 上 序列 号 以 便 其 重新 装配 ， 再 用 多 个 数据 包 进 行 传 
输 。 例 如 ， 以 太 网 的 MTU 是 1500 字 节 ， 如 果 消 息 不 超过 这 个 数据 量 ， 就 能 在 一 个 以 太 网 数据 包 中 
进行 传输 。 

尽管 在 因特网 协议 组 中 IP 协 议 处 于 网 络 层 协议 的 位 置 ， 但 它 的 MTU 却 很 大 ， 有 64KB (实际 中 
通常 使 用 8KB， 因 为 一 些 节 点 无 法 处 理 这 么 大 的 数据 包 )。 无 论 IP 数 据 包 采 用 哪 一 个 MTU 值 ， 比 以 
太 网 MTU 值 大 的 数据 包 必 须 经 过 分 割 才 能 在 以 太 网 上 传输 。 

端口 ”传输 层 的 任务 是 在 一 对 网 络 端口 间 提供 与 网 络 无 关 的 消息 传送 服务 。 端 口 是 主机 中 可 由 
软件 定义 的 目的 点 。 它 隶属 于 进程 ， 使 得 数据 能 传输 到 位 于 目的 节点 的 指定 进程 。 这 里 我 们 将 详 
细 讲 述 端口 在 因特网 和 大 部 分 其 他 网 络 中 实现 的 端口 寻 址 过 程 。 第 4 章 将 讨论 端口 的 编程 。 

寻 址 传输 层 负 责 将 消息 传递 到 目的 地 址 ， 其 使 用 的 传输 地 址 由 主机 的 网 络 地 址 和 一 个 端口 号 
组 成 。 网 络 地 址 是 能 唯一 标识 主机 的 一 个 数字 标识 符 ， 可 以 让 负责 将 数据 路 由 到 该 主机 的 节点 准 
确 地 定位 它 。 在 因特网 中 ， 为 每 台 主机 都 分 配 了 一 个 IP 地 址 ， 用 于 标识 该 主机 和 它 连 入 的 子 网 ， 
使 得 从 其 他 布点 都 能 路 由 到 该 主机 (下 一 节 将 介绍 这 一 内 容 )。 以 太 网 中 没有 路 由 节点 ， 由 每 台 
机 负责 辨识 数据 包 的 地 址 ， 并 接收 发 给 自己 的 数据 包 。 

众所周知 的 因特网 服务 (如 HTTP 或 FTP) 已 经 被 分 配 了 关联 的 问 口 号 。 它 们 都 在 权威 机 构 
( 即 因 特 网 编号 管理 局 ， 简 称 IANA) 进行 了 登记 [www.iana.org]。 要 访问 指定 主机 上 的 某 个 服 
务 ， 只 要 将 请 求 发 给 该 主机 上 相关 的 端口 就 可 以 了 。 有 些 服务 ， 如 FTP (关联 端口 为 21) ， 会 
分 配 一 个 新 的 端口 号 (私有 号 码 )， 并 将 新 的 端口 号 发 送 到 客户 端 。 客 户 端 使 用 新 的 端口 号 完成 
交易 或 会 话 的 剩余 部 分 。 其 他 服务 ， 如 HTTP (关联 端口 为 80)， 通 过 关联 端口 处 理 所 有 的 业务 
活动 。 

编号 小 于 1023 的 端口 被 定义 为 公共 端口 。 在 大 多 数 操作 系统 中 ， 它 们 的 使 用 被 限制 在 特权 进 
程 中 。!024~49151 之 间 的 端口 是 IANA 拥有 的 服务 描述 的 已 注册 端口 ， 其 他 直到 65535 的 端口 可 用 
于 个 人 目的 。 实 际 上 ， 大 于 1023 的 所 有 端口 都 可 用 于 个 人 目的 ， 只 是 为 个 人 目的 使 用 这 些 端口 的 
计算 机 不 能 同时 访问 相应 的 已 注册 服务 。 

在 开发 经 常 包括 许多 动态 分 配 的 服务 器 的 分 布 式 系统 中 ， 分 配 固定 端口 号 并 不 恰当 。 这 个 间 
题 的 解决 方案 涉及 动态 为 服务 分 配 端口 以 及 提供 绑 定 机 制 ， 使 得 客户 能 用 符号 化 名 字 定 位 服务 和 
相应 的 端口 。 这 些 将 在 第 5 章 做 进一步 讨论 。 

数据 包 传递 网 络 层 采用 两 种 方法 传递 数据 包 : 

数据 报 包 传递 : 术语 “数据 报 ” 指 出 了 这 种 传输 模式 和 信件 、 电 报 的 传输 模式 的 相似 性 。 数 
据 报 网 络 的 本 质 特征 是 每 个 包 的 传递 都 是 一 个 “一 次 性 ”的 过 程 ， 不 需要 计划 ， 一 旦 包 被 传递 ， 
网 络 就 不 再 保存 它 的 相关 信息 。 在 数据 报 网 络 中 ， 从 一个 源 地 址 到 一 个 目的 地 址 的 数据 包 序列 可 
以 按照 不 同 的 路 由 来 传递 这样， 网 络 就 有 能 力 处 理 故障 ， 或 缓解 局 部 拥塞 带 来 的 影响 ) ， 在 这 种 
情况 下 ， 数 据 包 序列 可 能 不 按照 原来 的 顺序 到 达 。 

每 个 数据 报 包 都 包括 完整 的 源 主机 和 目的 地 主机 的 网 络 地 址 ， 后 者 是 路 由 过 程 的 基本 参数 ， 
我 们 将 在 下 一 节 加 以 讨论 。 数 据 报 传递 是 数据 包 网 络 最 初 所 基于 的 概念 ， 可 以 在 目前 使 用 的 大 多 
数 计算 机 网 络 中 找到 它 。 因 特 网 网 络 层 IP、 以 太 网 以 及 大 部 分 有 线 或 无 线 的 局 域 网 技术 都 基于 数 
据 报 传递 的 。 

不 电路 包 传 递 : 一 些 网 络 级 的 服务 利用 类 似 于 电话 网 络 中 传递 的 方式 实现 包 传输 。 必 须 在 经 
源 主 机 A 到 目的 主机 B 传 递 包 之 前 建立 虚 电 路 。 要 建立 虚 电 路 ， 涉 及 确定 从 源 地 址 到 目的 地 址 的 路 
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5 黎 了 章 
由 ， 这 可 能 会 经 过 一 些 中 间 节 点 。 在 路 由 中 的 每 个 节点 上 都 会 有 一 个 表格 项 ， 指 示 路 由 下 一 步 该 
使 用 哪 一 个 链接 。 

一 旦 建立 起 虚 电 路 ， 就 可 以 用 它 传输 任意 数量 的 数据 包 了 。 每 个 网 络 层 的 数据 包 只 包括 一 个 
虚 电 路 号 ， 而 不 是 源 和 目的 地 址 。 此 时 已 不 需要 地 址 信息 ， 因 为 在 中 间 节 点 ， 通 过 引用 虚 电 路 号 
来 路 由 数据 包 。 数 据 包 到 达 目 的 地 址 后 ， 根 据 虚 电路 号 就 可 以 决定 其 源 地 址 。 

虚 电 路 与 电话 网 络 的 类 比 不 能 这 样 从 表面 上 看 。 在 POTS 中 ， 进 行 一 次 电话 呼叫 就 要 建立 从 主 
叫 者 到 被 叫 者 的 物理 电路 ， 而 这 一 音频 链接 也 将 作为 专用 连接 而 被 保留 。 在 虚 电路 的 包 传递 中 ， 
电路 只 是 由 一 些 在 路 由 节点 上 的 表格 项 来 表示 ， 而 数据 包 所 路 经 的 链接 也 只 在 传递 一 个 数据 包 时 
使 用 ， 在 其 余 时 间 这 些 链接 是 空闲 的 ， 可 供 它 用 。 因 此 ， 一 个 链接 可 以 被 多 个 独立 的 虚 电 路 使 用 。 
目前 使 用 的 最 重要 的 虚 电 路 网 络 技术 是 ATM。 我 们 已 经 提 到 过 ( 见 3.3.3 节 )， 它 传送 单个 数据 包 的 
延迟 较 短 ， 这 是 使 用 虚 电 路 的 直接 结果 。 但 无 论 怎么 说 ， 数 据 包 传送 到 一 个 新 目的 地 址 前 要 求 有 
一 个 准备 阶段 确实 造成 了 短 时 间 的 延迟 。 

不 要 将 网 络 层 的 数据 报 传递 和 虚 电路 包 传 递 之 间 的 区 别 和 传输 层 中 名 字 相 似 的 机 制 〈 即 无 连 
接 传输 和 面向 连接 传输 ) 混淆 。 我 们 将 在 3.4.6 节 有 关 因 特 网 传输 协议 一 一 UDP (无 连接 的 ) 和 TCP 
(面向 连接 的 ) 一 一 的 内 容 中 描述 这 些 技术 。 这 里 我 们 只 是 让 大 家 注意 ， 在 任何 一 种 类 型 的 网 络 层 
上 都 可 以 实现 这 些 传输 模式 。 


3.3.5 路 由 


路 由 是 除了 局 域 网 以 外 ， 比 如 以 太 网 (局域网 在 所 有 相连 的 主机 间 两 两 都 有 直接 连接 )， 其 他 
网 络 都 需要 的 功能 。 在 大 型 网 络 中 ， 采 用 的 是 自 适 应 路 由 ， 即 网 络 两 点 间 通 信 的 最 佳 路 由 会 周期 
性 地 重新 评估 ， 评 估 时 会 考虑 到 当时 的 网 络 
流量 以 及 故障 情况 (如 路 由 器 故障 或 网 络 断 
链 ) 。 

如 图 3-7 所 示 ， 在 网 络 中 将 数据 包 传 递 到 
目的 地 址 是 处 于 连接 点 的 路 由 器 的 共同 责任 。 
除非 源 主机 和 目的 主机 都 在 同一 个 局 域 网 中 ， 
否则 数据 包 都 必须 经 过 一 个 或 多 个 的 路 由 节 
点 ， 轧 转 多 次 才能 到 达 。 而 决定 数据 包 传输 
到 目的 地 址 的 路 由 是 由 路 由 算法 负责 的 一 一 它 
由 每 个 节点 的 一 个 网 络 层 程序 实现 。 

路 由 算法 包括 两 个 部 分 : 

1) 它 必 须 决定 每 个 数据 包 穿 梭 于 网 络 时 
所 应 经 过 的 路 径 。 在 电路 交换 网 络 层 (如 X.25) 和 帧 中 继 网 络 (如 ATM) 中 ， 一旦 建立 虚 电 路 或 
连接 ， 路 由 也 就 确定 了 。 在 包 交 换 网 络 层 (如 IP) 中 ， 数据 包 的 路 由 是 单独 决定 的 。 如 果 希 望 不 
降低 网 络 性 能 ， 算 法 必须 特别 简单 有 效 。 

2) 它 必须 通过 监控 流量 和 检测 配置 变化 或 故障 来 动态 地 更 新 网 络 的 知识 。 在 这 种 活动 中 ， 时 
间 并 不 是 至 关 重 要 的 ， 可 以 使 用 速度 较 慢 但 计算 量 较 大 的 技术 。 

这 两 个 活动 分 布 在 整个 网 络 中 。 路 由 是 一 段 一 段 决 定 的 ， 它 用 本 地 拥有 的 信息 决定 每 个 进入 
的 数据 包 下 一 步 的 方向 。 本 地 拥有 的 路 由 信息 依靠 一 个 分 发 链 路 状态 信息 (它们 的 负载 和 故障 状 
态 ) 的 算法 定期 更 新 。 

一 个 简单 的 路 由 算法 ”我 们 在 这 里 描述 的 是 “距离 向 量 ” 算 法 。 这 将 为 3.4.3 节 中 讨论 链 路 一 
状态 算法 提供 基础 ， 而 链 路 一 状态 算法 从 1979 以 来 就 成 为 因特网 上 主要 的 路 由 算法 。 网 络 中 的 路 
由 是 在 图 中 寻找 路 径 问 题 的 一 个 实例 。Bellman 的 最 短路 径 算 法 [Bellman 1957] 早 在 计算 机 网 络 出 





图 3-7 广域网 中 的 路 由 
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现 之 前 就 发 表 了 ， 它 为 距离 向 量 法 提供 了 基础 。Bellman 的 方法 已 被 Ford 和 Fulkerson[1962] 改 写成 
一 个 适合 大 型 网 络 实现 的 分 布 式 算法 ， 而 基于 他 们 的 工作 成 果 的 协议 常常 被 称 为 “Bellman-Ford 
协议 。 

图 3-8 给 出 了 图 3-7 的 网 络 中 每 个 路 由 器 中 保存 的 路 由 表 ， 其 中 假设 网 络 中 没有 出 故障 的 链 路 和 
路 由 器 。 路 由 表 的 每 行为 发 送 给 定 目 的 地 址 的 数据 包 提 供 了 路 由 信息 。 链 路 域 为 发 送 到 指定 目的 
地 的 数据 包 指 明了 下 一 段 链 路 。 开 销 域 计 算 向 量 距离 ， 或 到 达 目 的 地 的 跳 数 。 对 于 具有 相似 带宽 
的 链 路 的 存储 转发 网 络 ， 这 张 表 对 一 个 数据 包 传输 到 目的 地 所 需 的 时 间 给 出 了 合理 估计 。 存 储 在 
路 由 表 中 的 开销 信息 并 不 是 路 由 算法 的 第 1 部 分 所 采取 的 包 路 由 动作 中 使 用 的 ， 而 是 在 算法 的 第 2 
部 分 建立 和 维护 路 由 表 时 使 用 。 


路 由 : 从 A 路 由 : 从 B 路 由 : 从 C 
链 路 








到 链 路 开销 到 开销 到 链 路 开销 
A 本 地 0 A 1 1 A 2 2 
B 1 1 B 本 地 0 B 2 1 
C 1 2 C 2 1 C 本 地 0 
D 3 1 D 1 2 D 5 2 
E 1 2 E 4 1 E 5 1 
路 由 : 从 D 路 由 : 从 E 

到 链 路 开销 到 _ 链 路 开销 

A 3 1 A 4 2 

B 3 2 B 4 1 

C 6 2 C 5 1 

D 本 地 0 D 6 | 

E 6 1 E 本 地 0 


图 3-8 图 3-7 所 示 网 络 的 路 由 表 


路 由 表 中 为 每 个 可 能 的 目的 地 单独 设置 一 项 ， 给 出 了 数据 包 到 达 目 的 地 而 要 采取 的 下 一 跳 
(hop)。 当 数据 包 到 达 一 个 路 由 器 时 ， 就 会 抽取 目的 地 址 并 在 本 地 路 由 表 中 查找 该 地 址 。 路 由 表 中 
的 表 项 给 出 了 指引 数据 包 发 送 到 目的 要 经 过 的 下 一 个 链 路 。 

例如 ， 一 个 县 的 地 为 C 的 数据 包 从 路 由 器 4 开始 发 送 ， 路 由 器 从 路 由 表 中 检查 有 关 C 的 项 。 路 
由 表 表 明 数 据 包 应 该 从 4 沿 标 号 为 1 的 链 路 路 由 。 数 据 包 到 达 8 后 ， 按 照 前 述 的 过 程 ， 在 8 的 路 由 表 
中 查询 , 发 现 需 要 经 过 标号 为 2 的 链 路 路 由 到 C。 当 数 据 包 到 达 C 时 , 路 由 表 中 的 相关 项 显示 “本 地 ”， 
而 不 是 一 个 链 路 号 。 这 表明 应 该 将 数据 包 发 送 到 本 地 主机 上 去 。 

现在 让 我 们 来 考虑 一 下 怎样 建立 路 由 表 ， 以 及 在 网 络 发 生 故 障 时 怎样 维护 路 由 表 ， 即 上 面 所 
说 的 路 由 算法 的 第 2 部 分 是 怎样 完成 的 。 因 为 每 个 路 由 表 只 为 每 个 路 由 指定 一 跳 ， 所 以 路 由 信息 的 
构建 或 修正 就 可 以 按 分 布 的 方式 进行 。 每 个 路 由 器 使 用 路 由 器 信息 协议 (Router Information 
Protocol, RIP) 通过 发 送 自己 路 由 表 信 息 的 概要 和 邻接 节点 相互 交换 网 络 信息 。 下 面 简要 描述 一 下 
路 由 器 所 完成 的 RIP 动 作 : 

1) 周期 性 地 并 且 只 要 本 地 路 由 表 发 生 改变 ， 就 将 自己 的 路 由 表 (以 概要 的 方式 ) 发 给 邻接 的 
所 有 可 访问 的 路 由 器 。 也 就 是 说 ， 在 每 个 没有 故障 的 链 路 上 发 出 一 个 包含 路 由 表 副 本 的 RIP 数 据 包 。 

2) 当 从 和 邻接 路 由 器 收 到 这 样 的 表 时 ， 如 果 接 收 到 的 表 中 给 出 了 到 达 一 个 新 目的 地 的 路 由 ,或 
对 于 已 有 的 一 个 目的 地 更 好 (开销 更 低 ) 的 路 由 ， 则 用 新 的 路 由 更 新 本 地 的 路 由 表 。 如 果 路 由 表 
是 从 链 路 4 接收 到 的 ， 并且 表 中 给 出 的 从 链 路 x 开始 到 达 某 地 的 开销 和 本 地 路 由 表 中 的 不 相同 ， 则 
用 新 的 开销 替换 本 地 表 中 已 有 的 开销 。 这 样 做 的 原因 是 ， 新 表 是 从 和 相关 的 目的 地 更 近 的 路 由 器 
传 来 的 ， 因 此 对 经 过 该 路 由 器 的 路 由 而 言 更 加 有 权威 性 。 

图 3-9 给 出 的 伪 代 码 程 序 将 更 准确 地 描述 这 个 算法 ， 其 中 Tr 是 从 另 一 个 路 由 器 接收 到 的 表 ，TI 是 
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本 地 路 由 表 。Ford 和 Fulkerson[1962] 已 经 证 明 ， 无 论 何 时 网 络 发 生变 化 ， 上 面 描述 的 步骤 都 能 充分 
确保 路 由 表 收 敛 到 到 达 每 个 目的 地 的 最 佳 路 由 。 即 使 网 络 设 有 发 生变 化 , 也 会 以 频率 {来 传播 路 由 表 ， 
以 确保 其 稳定 性 ， 例 如 ， 要 在 丢失 RIP 数 据 包 的 情况 下 保证 稳定 性 。 因 特 网 采用 的 ! 值 是 30s。 


Send: 每 隔 ! 秒 或 在 T! 发 生变 化 时 ， 在 每 个 没有 故障 的 链 路 上 发 送 Ti。 
Receive ， 当 在 链 路 4 上 接收 到 路 由 表 Tr: 
for all rows Rr in Tr{ 
证 (Rriink zn) { 
Rr.cost = Rr.cost +1; 
Rr.link = n; 
If (Rr.destination 不 在 Tl 中 ) 将 Rr 加 入 到 Tl; // 向 Tl 中 加 入 新 的 自 的 地 
else for Tl 中 的 所 有 行 RI{ 
If (Rr.destination = Rl.destination and 
(Rr.cost < Ri.cost or Rllink = n)) RI= Rr: 
/1/ Rr.cost < Ri.cost ; 远程 节点 有 更 好 的 路 由 
1/ Rilink = n : 远程 节点 更 加 权威 








图 3-9 RIP 路 由 算法 


为 了 处 理 故 障 ， 每 个 路 由 器 都 监控 着 自己 的 链 路 并 做 以 下 的 工作 : 

当 检测 到 一 条 有 故障 的 链 路 nx 时， 将 本 地 表 中 指向 故障 链 路 的 所 有 项 的 开销 都 设 为 >， 接 着 执 
行 Send 动 作 。 

这 样 ， 一 个 断 开 的 链 路 信息 被 表示 成 通 往 相 关 目 的 地 的 开销 值 是 无 穷 大 。 当 这 一 信息 传播 到 
邻接 路 由 器 时 ， 它 们 的 路 由 表 也 将 根据 Receive 动 作 进 行 更 新 (注意 : m + 1 = %w) ， 然 后 继续 传播 ， 
直到 到 达 了 有 路 由 到 相关 目的 地 的 节点 (如果 存在 这 样 的 节点 )。 最 终 ， 具 有 可 用 路 由 的 节点 会 伟 
播 它 的 路 由 表 ， 它 的 可 用 路 由 也 将 代替 所 有 节点 中 的 故障 路 由 。 

距离 一 向 量 算 法 可 以 用 多 种 方法 进行 改进 。 开 销 ， 也 被 称 为 度量 ， 可 以 根据 链 路 的 实际 带宽 
来 计算 ， 可 以 修改 算法 ， 以 增加 信息 收敛 的 速度 ， 并 如 免 那 些 在 达到 收敛 前 可 能 出 现 的 不 希望 出 
现 的 中 间 状 态 ， 比 如 循环 。 具 有 这 些 改进 的 路 由 信息 协议 是 第 一 个 在 因特网 中 使 用 的 路 由 协议 ， 
也 就 是 众所周知 的 RIP-1， 其 具体 描述 见 RFC 1058[Hedrick 1988]。 但 收敛 速度 过 慢 所 带 来 的 问题 
并 没有 得 到 很 好 的 解决 ， 当 网 络 处 于 中 间 状 态 时 就 会 出 现 路 由 低 效 和 数据 包 丢 失 的 问题 。 

后 来 ， 路 由 算法 的 发 展 趋 于 在 每 个 网 络 节点 中 增加 对 于 网 络 的 信息 容量 。 这 一 类 算法 中 最 重 
要 的 一 族 是 链 路 一 状态 算法 。 它 们 的 基本 思想 是 分 布 并 更 新 在 每 个 节点 中 一 个 表示 网 络 所 有 部 分 
或 重要 部 分 的 数据 库 。 每 个 节点 负责 计算 在 自己 的 数据 库 中 所 显示 的 到 达 目 的 地 的 最 佳 路 由 。 这 
种 计算 可 利用 多 种 算法 完成 ， 有 些 算法 避免 了 Bellman-Ford 算 法 中 存在 的 问题 ， 如 收敛 的 时 间 慢 和 
不 希望 出 现 的 中 间 状 态 。 路 由 算法 的 设计 是 一 个 相当 重要 的 主题 ， 我 们 这 里 的 讨论 是 非常 有 限 的 。 
我 们 将 在 3.4.3 节 重新 讨论 这 个 主题 ， 在 那里 将 描述 RIP-1 算 法 的 操作 ，RIP-1 算 法 是 最 早 用 于 IP 路 由 
的 算法 之 一 ， 目 前 在 因特网 的 许多 地 方 还 在 使 用 它 。 对 于 因特网 中 更 深入 的 路 由 问题 ， 请 参阅 
Huitema [2000]， 如 想 全 面 地 了 解 路 由 算法 ， 请 参阅 Tanenbaum[2003]。 


3.3.6 拥塞 控制 


网 络 的 能 力 受 到 通信 链 路 性 能 和 交换 节点 性 能 的 限制 。 当 任何 链 路 或 节点 的 负载 接近 其 负载 
能 力 时 ， 试 图 发 送 数据 包 的 主机 中 就 会 建立 队列 ， 传 输 数据 的 中 间 节 点 因为 被 其 他 数据 传输 所 阻 
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塞 也 会 建立 队列 。 如 果 负 载 继续 维持 在 这 样 的 高 水 平 ， 那 么 等 待 发 送 的 队列 就 会 不 断 增 长 ， 直 到 
达到 可 用 的 缓冲 区 空间 的 上 限 为 止 。 

一 县 节点 达到 这 样 的 状态 ， 节 点 只 能 将 以 后 到 达 的 数据 包 丢 弃 。 前 面 已 经 提 到 过 ， 在 网 络 层 
偶尔 出 现 数据 包 丢 失 是 允许 的 ， 这 种 损失 可 以 通过 从 更 高 层 重 传 丢失 的 数据 包 来 弥补 。 而 当 数 据 


包 丢 失 率 和 重 传 率 达 到 一 个 很 高 的 水 平 ， 那 么 会 给 网 络 的 吞吐 量 带 来 灾难 性 的 后 果 。 道 理 很 简单 : 


如 果 数 据 包 在 中 间 节 点 被 丢弃 ， 那 么 已 经 占用 的 网 络 资源 就 被 浪费 掉 了 ， 而 重 传 还 要 再 消耗 同样 
多 的 资源 。 经 验 表 明 ， 当 网 络 的 负载 超过 其 能 力 的 80% ， 系 统 的 总 吞吐 量 会 因为 数据 包 丢失 而 下 降 ， 
除非 控制 高 负载 链 路 的 使 用 。 

为 了 避免 数据 包 在 网 络 中 传递 时 经 过 拥塞 节点 而 被 丢弃 的 情况 ， 最 好 将 数据 包 保存 在 发 生 拥 
塞 之 前 的 节点 中 直到 拥塞 减少 。 这 固然 会 增加 数据 包 的 延迟 ， 但 不 会 极 大 降低 整个 网 络 的 吞吐 量 。 
用 于 实现 该 目的 的 技术 称 为 拥塞 控制 。 

通常 ， 拥 塞 控 制 是 通过 通知 发 生 拥 塞 的 路 由 上 的 节点 而 实现 的 ， 因 此 它们 的 数据 包 传输 率 会 
有 所 减少 。 对 中 间 节 点 来 说 ， 这 意味 着 进入 的 数据 包 将 会 缓冲 很 长 时 间 。 而 作为 发 出 数据 包 的 源 
主机 ， 结 果 就 是 把 要 发 送 的 数据 包 在 主机 中 排队 ， 或 者 阻塞 产生 这 些 数 据 包 的 应 用 程序 ， 直 到 网 
络 能 妥善 地 处 理 数据 包 为 止 。 

所 有 基于 数据 报 的 网 络 层 ， 包 括 IP 和 以 太 网 ， 都 依靠 端 一 端的 流量 控制 。 也 就 是 说 ， 发 送 节 
点 必须 基于 收 到 的 接收 方 的 信息 降低 其 发 出 数据 包 的 速率 。 要 为 发 送 节点 提供 拥塞 信息 ， 可 以 通 
过 显 式 地 传输 一 个 请 求 减少 传输 率 的 特殊 消息 (被 称 为 阻塞 数据 包 ) ， 也 可 以 通过 实现 一 个 专门 的 
传输 控制 协议 (TCP 的 名 字 也 由 此 而 来 ，3.4.6 节 将 解释 TCP 中 的 机 制 )， 或 通过 观察 丢弃 数据 包 发 
生 的 情况 (假设 协议 要 确认 每 一 个 数据 包 ) 来 实现 。 

在 一 些 基于 虚 电 路 的 网 络 中 ， 每 个 节点 可 以 接收 到 拥塞 信息 ， 拥 塞 信息 也 可 以 作用 于 每 个 节 
点 。 尽 管 ATM 使 用 虚 电 路 传递 ， 但 它 仍 要 依靠 服务 质量 管理 〈 见 3.5.3 节 和 第 17 章 ) 来 保证 每 个 电 
路 都 能 完成 所 要 求 的 流量 。 


3.3.7 网 际 互 连 


不 同 的 网 络 、 链 路 和 物理 层 协议 形成 了 不 同 的 网 络 技术 。 局 域 网 络 是 基于 以 太 网 和 ATM 技 术 
建立 起 来 的 ， 而 广域网 是 基于 各 种 数字 和 模拟 电话 网 络 、 卫 星 连 接 和 广 域 ATM 网 络 建立 的 。 单 个 
的 计算 机 和 局 域 网 则 是 通过 调制 解 调 器 、 无 线 连接 和 DSL 连 接 接 人 因特网 或 企业 内 部 网 的 。 

为 了 建立 一 个 集成 的 网 络 (互连网 络 )， 我 们 必须 集成 许多 子 网 ， 而 它们 各 自 基 于 上 述 某 种 网 
络 技 术 。 为 了 实现 集成 ， 需 要 实现 以 下 几 方 面 : 

1) 统一 的 互连网 络 寻 址 方案 ， 使 得 数据 包 可 以 找到 接 和 信任 一 子 网 的 任 一 主机 。 

2) 定义 互连网 络 中 的 数据 包 格 式 并 给 出 相应 处 理 规则 的 协议 。 

3) 互 连 组 件 ， 用 于 按照 互连网 络 地 址 将 数据 包 路 由 到 目的 地 ， 可 用 具有 多 种 网 络 技术 的 子 网 
传递 数据 包 。 

对 于 因特网 而 言 ， 卫 地 址 可 实现 上 面 第 1 个 要 求 ， 第 2 个 要 求 是 下 协议 ， 第 3 个 要 求 由 称 为 因 特 
网 路 由 器 的 组 件 实现 。IP 协 议和 IP 寻 址 将 在 3.4 节 详细 描述 。 这 里 我 们 将 讨论 因特网 路 由 器 和 其 他 
用 来 连接 各 网 络 的 组 件 的 功能 。 

图 3-10 展 示 了 2000 年 年 中 伦敦 大 学 Queen Mary 学 院 (QMUL) 的 企业 内 部 网 的 一 小 部 分 ， 更 
多 细节 将 在 后 面 的 小 节 中 加 以 解释 。 这 里 我 们 要 注意 的 是 图 中 包含 通过 路 由 器 互 连 的 多 个 子 网 那 
一 部 分 。 该 部 分 有 5 个 子 网 ， 其 中 3 个 子 网 共享 IP 网 络 138.37.95 (使 用 了 无 等 级 的 域 间 路 由 方案 ， 
见 3.4.3 节 )。 图 上 的 数字 是 IP 地 址 ， 它 们 的 结构 将 在 3.4.1 节 中 解释 。 图 上 的 路 由 器 是 多 个 子 网 的 成 
员 ， 它 们 在 每 个 子 网 中 都 有 一 个 IP 地 址 (地址 就 写 在 连接 的 链 路 上 )。 
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图 3-10 QMUL 计 算 机 科学 网 的 简 图 (2000 年 年 中 ) 


路 由 器 (主机 名 : hammer 和 sickle) 实际 上 是 一 个 通用 的 计算 机 ， 也 能 完成 其 他 任务 ， 其 中 一 
个 任务 是 作为 防火 墙 使 用 。 防 火 墙 的 作用 和 路 由 功能 紧密 相关 的 ， 我 们 将 在 下 面 讨 论 这 一 点 。 
138.37.95.232/29 子 网 在 IP 层 并 没有 和 网 络 中 的 其 他 部 分 相连 。 只 有 文件 服务 器 custard 可 以 访问 它 ， 
该 服务 器 在 相连 的 打印 机 上 通过 一 个 监控 和 控制 打印 机 使 用 的 服务 器 进程 提供 打印 服务 。 

图 3-10 中 所 有 的 链 路 都 是 以 太 网 。 大 部 分 链 路 的 带宽 是 100Mbps， 但 有 一 个 链 路 的 带宽 是 
1000Mbps， 因 为 它 支持 着 大 量 学 生 使 用 的 计算 机 和 包含 所 有 文件 的 文件 服务 器 custard 间 的 巨大 数 
据 流 量 。 

在 图 示 的 这 部 分 网 络 中 ， 有 两 个 以 太 网 交换 机 和 几 个 以 太 网 集线器 。 两 者 对 IP 数 据 包 来 说 都 
是 透明 的 。 以 太 网 集线器 只 是 一 种 将 以 太 网 电缆 的 多 个 段 连接 在 一 起 的 手段 ， 在 网 络 协议 层 ， 这 
些 段 形成 一 个 以 太 网 。 主 机 收 到 的 所 有 以 太 网 数据 包 将 转播 到 所 有 的 段 。 以 太 网 交换 机 连接 了 几 
个 以 太 网 ， 用 于 将 进入 的 数据 包 路 由 到 目的 主机 所 在 的 以 太 网 中 。 

路 由 器 我 们 已 经 提 到 ， 除 了 像 以 太 网 和 无 线 网 络 (这 些 网 络 中 的 主机 由 一 种 传输 介质 连接 )， 
其 他 所 有 网 络 都 需要 路 由 。 图 3-7 显 示 了 一 个 由 6 条 链 路 连接 5 个 路 由 器 组 成 的 网 络 。 在 一 个 互连网 
络 中 ， 可 由 直接 连接 将 路 由 器 链接 起 来 ， 如 图 3-7 所 示 ， 也 可 以 通过 子 网 将 路 由 器 互 连 ， 如 图 3-10 
中 的 custard。 在 这 两 种 情况 下 ， 路 由 器 都 负责 将 从 任 一 连接 来 的 互连网 络 数据 包 准 确 地 发 送 到 下 
一 条 连接 。 路 由 器 也 因为 这 个 目的 而 维护 路 由 表 。 

网 桥 ”网 桥 连接 不 同 种 类 的 网 络 。 一 些 网 桥 连接 儿 个 网 络 ， 它 们 也 被 称 为 网 桥 / 路 由 器 ， 因 为 
它们 也 表现 出 了 路 由 的 功能 。 例 如 ，QMW 的 校园 网 包括 一 个 光纤 分 布 式 数据 接口 FDDI 主 干 ( 没 
有 在 图 3-10 中 显示 ) ， 它 就 是 由 网 桥 /路 由 器 连接 到 图 中 的 以 太 网 子 网 中 的 。 

集线器 ”集线器 是 将 主机 、 以 太 网 和 其 他 广播 型 局 域 网 技术 的 扩展 网 段 连接 起 来 的 一 种 方便 的 
手段 。 它 有 多 个 播 槽 (通常 有 4 64 个 ) ， 每 一 个 插 槽 都 可 以 连接 一 台 计 算 机 。 它 们 也 用 于 克服 单 
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个 网 段 带 来 的 距离 上 的 限制 ， 提 供 添加 额外 主机 的 途径 。 

交换 机 ”交换 机 的 功能 与 路 由 器 相似 ,但 路 由 器 只 用 于 局 域 网 (一般 是 以 太 网 )。 也 就 是 说 ， 
它们 将 多 个 分 离 的 以 太 网 互 连 ， 将 到 达 的 数据 包 路 由 到 适当 的 外 出 网 络 中 。 它 们 在 以 太 网 的 网 络 
协议 层 上 完成 这 一 任务 。 起 初 它们 对 互连网 络 有 多 大 范围 一 无 所 知 ， 通 过 观察 数据 流量 以 及 在 缺 
少 信息 时 采取 广播 请 求 的 方式 建立 其 路 由 表 。 

与 集线器 相 比 ， 交 换 机 的 好 处 是 它 分 离 了 到 达 的 流量 ， 仅 在 相关 的 外 出 网 络 上 传输 数据 包 ， 
减少 了 所 连接 网 络 的 拥塞 。 

隧道 网 桥 和 路 由 器 通过 网 络 层 协议 和 一 个 互连网 络 协议 的 转换 ， 实 现在 各 种 底层 网 络 上 传输 
互连网 络 数据 包 ， 不 过 在 一 种 情形 下 ， 底 层 网 络 协议 可 以 被 隐藏 起 来 不 被 其 上 的 层 看 到 ， 不 需要 
使 用 互连网 络 协议 。 当 一 对 连接 到 同一 类 型 的 两 个 网 络 中 的 节点 需要 通过 另 一 种 类 型 的 网 络 进行 
通信 时 ， 它 们 之 间 通 过 构造 协议 “隧道 ”来 达到 这 一 目标 。 协 议 隧道 其 实 就 是 在 相 异 网 络 环境 中 
传输 数据 包 的 软件 层 。 

下 面 类 比 解释 了 选择 “隧道 ”这 一 术语 的 原因 ， 同 时 也 提供 了 另 一 种 方式 来 思考 隧道 的 含义 。 
穿山 隧道 使 得 车 辆 通过 成 为 可 能 ， 如 果 没 有 隧道 这 是 不 可 能 实现 的 。 公 路 是 连续 的 ， 隧 道 对 于 应 
用 (车 辆 ) 来 说 是 透明 的 。 公 路 是 传输 机 制 ， 而 隧道 使 得 它 能 在 相 异 的 环境 中 工作 。 

图 3-11 显 示 的 是 隧道 的 一 种 建议 使 用 方法 ， 它 支持 从 因特网 迁移 到 IPv6 协 议 。IPv6 将 会 取代 现 
在 使 用 的 IP 协 议 版 本 IPv4， 但 它们 不 兼容 (IPv4 和 IPv6 的 描述 见 3.4 节 ) 。 在 向 IPv6 过 渡 的 过 程 中 ， 
IPv4 的 海洋 中 会 不 断 出 现 TPv6“ 岛 同 ”。 在 我 们 的 图 中 ，A 和 B 就 是 这 样 的 岛屿 。 在 岛屿 的 边界 处 ， 
IPv6 数 据 包 被 封装 成 IPv4 的 格式 ， 并 以 那 种 方式 在 IPv4 网 络 中 传输 。 


IPv6 封 装 在 IPv4 数 据 包 中 





封装 点 


图 3-11 IPv6 迁 移 使 用 的 隧道 


看 男 一 个 例子 ， 移 动 IP 协 议 (其 描述 见 3.4.5 节 ) 通过 建立 从 本 地 基站 到 任 一 网 络 位 置 的 隧道 ， 
来 将 IP 数 据 包 传输 到 因特网 上 的 任何 移动 主机 。 中 间 的 网 络 节点 不 需要 为 处 理 移动 IP 协 议 而 加 以 修 
改 。IP 组 播 协 议 在 处 理 方式 上 也 与 此 相似 ， 依 靠 一 些 支持 IP 组 播 路 由 的 路 由 器 来 决定 路 由 ， 但 通过 
使 用 标准 IP 地 址 的 路 由 器 来 传输 ITP 数 据 包 ， 另 一 个 例子 是 在 串 行 链 路 上 传输 IP 数 据 包 的 PPP 协 议 。 


3.4 因特网 协议 


本 市 将 介绍 TCP/IP 协 议 组 的 主要 特点 ， 并 讨论 在 分 布 式 系 统 中 使 用 它们 的 好 处 及 局 限 性 。 

因特网 的 研究 始 于 20 世 纪 70 年 代 早期 的 ARPANET 一 一 第 一 个 大 规模 计算 机 网 络 的 开发 [Leiner 
et al. 1997]， 随 着 近 20 年 的 研究 和 开发 ， 因 特 网 渐渐 成 形 。 这 项 研究 的 一 个 重要 部 分 是 开发 TCP/IP 
协议 组 ，TCP 指 传输 控制 协议 ，IP 是 指 网 际 协议 。TCP/IP 和 因特网 应 用 协议 在 美国 研究 网 络 中 的 广 
泛 采 用 以 及 最 近 在 许多 国家 的 商业 网 络 中 的 广泛 使 用 ,使 得 全 国 的 网 络 可 以 集成 为 一 个 互连网 络 ， 
这 一 网 络 已 经 迅速 发 展 到 目前 数量 超过 6 千 万 主机 的 规模 。 现 在 许多 应 用 服务 和 应 用 层 的 协议 ( 列 
在 下 面 的 各 个 括号 内 ) 都 是 基于 TCP/IP 的 ， 包 括 Web (HTTP)、 电 子 邮 件 (SMTP、POP)、 网 络 
新 闻 (NNTP)、 文 件 传输 (FTP) 和 远程 登录 (telnet) 。TCP 是 一 个 传输 协议 ， 它 可 以 直接 支持 应 
用 程序 ， 也 可 以 将 附加 的 协议 加 在 它 上 面 ， 以 提供 额外 的 特点 。 例 如 ， 通 常 HTTP 传 输 时 直接 使 用 
TCP， 但 当 需 要 端 一 端的 安全 性 时 ， 传 输 层 安全 (TLS) 协议 (在 7.6.3 节 讨论 ) 就 会 放 在 TCP 的 上 
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层 ， 以 建立 安全 信道 ，HTTP 消 息 通 过 这 一 安全 信道 传输 。 

最 初 ， 开 发 因特网 协议 是 用 来 支持 一 些 简单 的 广 域 应 用 ， 如 文件 传输 和 电子 邮件 ， 这 涉及 在 
地 理 上 相隔 很 远 的 有 较 长 延迟 的 通信 。 但 这 些 协议 已 被 证 明 足 以 有 效 支持 很 多 分 布 式 应 用 的 需求 ， 
不 论 这 些 应 用 是 在 广域网 上 还 是 在 局 域 网 上 ， 它 们 现在 广泛 使 用 于 分 布 式 系统 中 。 通 信 协 议 的 标 
准 化 带 来 了 巨大 的 好 处 。 

图 3-6 所 示 的 互连网 络 协 议 层 的 一 般 性 说 明 被 翻译 成 图 3-12 所 示 的 因特网 的 特例 ， 其 中 有 两 个 
传输 协议 一 一 TCP (传输 控制 协议 ) 和 UDP (用 户 数据 报 协 议 )。TCP 是 一 个 面向 连接 的 可 靠 协 议 ， 
而 UDP 是 一 个 不 能 保证 可 靠 传输 的 数据 报 协议 。 网 际 协议 (IP) 是 因特网 虚拟 网 络 的 底层 “网 络 ” 
协议 ， 也 就 是 说 ，IP 数 据 报 为 因特网 和 其 他 TCP/IP 网 络 提供 了 基本 的 传输 机 制 。 我 们 在 前 面 的 句 
子 中 给 “网 络 ” 一 词 加 上 引号 ， 因 为 它 并 不 是 唯一 的 因特网 通信 实现 所 涉及 的 网 络 层 。 这 是 因为 
网 际 协议 通常 是 在 另 一 个 网 络 技术 之 上 ， 比 如 以 太 网 ， 它 已 经 提供 了 一 个 网 络 层 ， 该 层 使 得 连接 
到 同一 网 络 的 计算 机 可 以 交换 数据 报 。 图 3-13 说 明了 通过 TCP 在 底层 以 太 网 上 传输 消息 的 时 候 数据 
包 的 封装 过 程 。 头 部 的 标签 给 出 了 上 层 协议 的 类 型 ， 以 便 接收 协议 栈 正确 地 解 开 这 个 数据 包 。 在 
TCP 层 ， 接 收 方 的 端口 号 有 类 似 的 作用 ， 使 得 接收 主机 的 TCP 软 件 组 件 可 以 将 消息 送 到 特定 的 应 用 
层 进 程 中 去 。 
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图 3-13 通过 TCP 在 以 太 网 上 传输 消息 时 发 生 的 封装 


TCP/IP 规 约 [Postel 1981a; 1981b] 没 有 详细 描述 因特网 数据 报 层 以 下 的 层 ， 因 特 网 层 的 IP 数 据 
包 会 转换 成 可 以 在 几乎 任何 底层 网 络 或 数据 链 路 上 传输 的 包 。 

举例 来 说 ，IP 起 初 运行 在 APPANET 上 ， 这 个 网 络 包括 主机 和 一 些 由 长 距离 数据 链 路 连接 的 早 
期 版 本 的 路 由 器 ( 称 为 PSE) 。 如 今 ，IP 实 际 上 已 经 用 于 各 种 网 络 技术 了 ， 包 括 ATM、 局 域 网 (如 
以 太 网 ) 和 令 牌 环 网 。 在 串 行 线路 和 电话 电路 上 通过 PPP 协 议 [Parker 1992] 实 现 IP， 使 得 IP 可 用 于 
与 调制 解 调 器 连接 和 其 他 串 行 链 路 的 通信 。 

TCP/IP 的 成 功 源 于 它 独立 于 底层 传输 技术 ， 这 使 得 互连网 络 可 以 由 许多 异 构 的 网 络 或 数据 链 
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路 建立 起 来 。 用 户 和 应 用 程序 感知 到 的 是 一 个 支持 TCP 和 UDP 的 虚拟 网 络 ，TCP 和 UDP 的 实现 者 看 
到 一 个 虚拟 IP 网 络 ， 它 隐藏 了 底层 传输 介质 的 多 样 性 。 图 3-14 说 明了 这 个 观点 。 







图 3-14 编程 者 眼中 TCP/IP 因 特 网 的 概念 

下 面 两 节 将 详细 描述 IP 寻 址 方案 和 IP 协 议 。 用 于 将 因特网 用 户 很 熟悉 的 www.amazon.com.、 
hpl.hp.com、stanford.edu、qmw.ac.uk 这 些 域名 转化 成 理 地 址 的 域名 系统 将 在 3.4.7 节 中 介绍 ， 第 9 章 
将 给 出 更 全 面 的 叙述 。 

现在 ， 因 特 网 上 使 用 的 主要 IP 协 议 的 版 本 是 IPv4 (从 1984 年 1 月 开始 ) ， 这 也 是 我 们 将 在 下 面 
两 小 节 里 讨论 的 版 本 。 但 由 于 因特网 使 用 的 飞速 发 展 ， 人 们 也 不 得 不 发 布 新 的 IP 版 本 IPv6， 以 克服 
IPv4 中 地 址 数量 的 限制 并 为 之 增添 功能 以 满足 新 的 需求 。 我 们 将 在 3.4.4 节 描述 IPv6。 由 于 大 量 的 
软件 将 受 此 影响 ， 所 以 逐渐 过 渡 到 IPv6 的 计划 将 在 10 年 或 更 长 的 时 间 里 来 完成 。 


3.4.1 1IP 寻 址 


或 许 设计 因特网 协议 最 富有 挑战 之 处 是 构造 主机 的 命名 和 寻 址 方案 以 及 将 IP 数 据 包 路 由 到 目 
的 地 的 方案 。 分 配 主机 网 络 地 址 的 方案 和 计算 机 连接 到 它们 的 方案 需要 满足 以 下 一 些 需求 : 

* 这 必须 是 通用 的 一 一 任何 主机 必须 可 以 发 送 数 据 包 给 因特网 中 的 任何 其 他 主机 。 

* 地 址 空间 的 使 用 ， 必 须 是 有 效 的 一 一 预知 因特网 的 最 终 规模 、 网 络 数量 和 所 需 的 主机 地 址 数 

量 是 不 可 能 的 。 地 址 空间 必须 仔细 地 分 割 以 确保 地 址 不 会 用 完 。1978 ~ 1982 年 ， 当 开发 

TCP/IP 协 议 时 ， 认 为 提供 2”( 即 约 40 亿 ， 大 致 等 于 当时 全 世界 的 人 口 总 数 ) 的 可 寻 址 的 主机 

就 足够 了 。 但 这 种 判断 已 经 被 证 明 是 目光 短 浅 的 ， 原 因 如 下 : 

一 因特网 的 增长 速度 远 远 超过 了 当初 的 预测 。 

一 地 址 空间 的 分 配 和 使 用 比 预期 的 要 低 效 得 多 。 

。 寻 址 方案 必须 有 助 于 开发 灵活 有 效 的 路 由 方案 ， 但 地 址 本 身 并 不 能 包括 太 多 的 用 于 将 数据 

包 路 由 到 目的 地 的 信息 。 

所 选 的 方案 为 因特网 中 的 每 个 主机 都 分 配 一 个 下 地 址 一 一 个 32 比 特 的 数字 标识 符 ， 其 中 包括 
一 个 网 络 标识 符 〈 唯 一 标识 了 因特网 中 的 某 个 子 网 ) 、 一 个 主机 标识 符 (唯一 标识 了 到 该 网 络 的 主 
机 连接 )。 这 些 地 址 将 放 在 IP 数 据 包 中 并 被 路 由 到 目的 地 。 

因特网 地 址 空间 所 采用 的 设计 如 图 3-15 所 示 。 一 共有 4 类 已 分 配 的 因特网 地 址 一 A、B、C、 
D。D 类 地 址 为 因特网 组 播 通信 保留 ， 组 播 通 信 仅 在 一 些 因特网 路 由 器 中 实现 ， 其 进一步 的 讨论 见 
4.5.1 节 。E 类 地 址 包括 一 些 示 分配 的 地 址 ， 为 满足 未 来 的 需求 而 保留 。 

这 些 包含 网 络 标识 符 和 主机 标识 符 的 32 比 特 因特网 地 址 通常 写成 由 点 分 开 的 4 个 十 进 制 数字 序 
列 。 每 个 十 进 制 数字 表示 一 个 字 节 或 IP 地 址 的 8 比特 组 。 每 一 类 网 络 地 址 的 允许 值 如 图 3-16 所 示 。 

三 类 地 址 用 于 满足 不 同类 型 组 织 的 需要 。A 类 地 址 (在 每 个 子 网 中 能 容纳 2* 台 主机 ) 是 为 非常 
大 的 网 络 准 备 的 ， 比 如 US NSFNet 和 其 他 全 国 性 的 广域网 。B 类 地 址 可 分 配给 网 络 中 的 计算 机 超过 
255 台 的 组 织 ， 而 C 类 地 址 则 是 分 配给 所 有 其 他 的 网 络 。 

主机 标识 符 为 0 和 全 1 (二 进 制 ) 的 因特网 地 址 将 留 作 特 殊 用 途 。 主 机 标识 符 为 0 的 地 址 代表 
“本 机 ”， 若 主机 标识 符 为 全 1， 则 表示 这 是 一 个 广播 消息 ， 并 将 消息 发 送 到 与 地 址 的 网 络 标识 符 部 
分 指定 的 网 络 连 接 的 主机 上 。 

网 络 标 识 符 是 由 因特网 编号 管理 局 (IANA) 分 配给 其 网 络 与 因特网 相连 的 组 织 。 连 接 到 因 特 


村 。 


网 的 计算 机 的 主机 标识 符 是 由 相关 网 络 的 管理 员 来 分 配 的 。 


人 


E 类 (保留 ): | 中 !| 1 未 使 用 
图 3-15 因特网 地 址 结构 〈 域 大 小 的 单位 是 比特 ) 
8 比特 组 2 


8 比特 组 1 8 比特 组 3 地 址 范围 
4 3 2 i 













1.0.0.0 到 


A 类 127.255.255.255 


B 类 128.0.0.0 到 


C 类 
D 类 (组 播 ) : 224.0.0.0 到 
239.255.255.255 


240.0.0.0 到 
255.255.255.255 


E 类 (保留 ): 


图 3-16 十 进 制 的 因特网 地 址 


既然 主机 的 地 址 包括 一 个 网 络 标识 符 ， 那 么 连接 到 多 个 网 络 的 计算 机 必须 在 每 个 网 络 中 都 有 
独立 的 地 址 。 每 次 计算 机 移 到 一 个 新 的 网 络 ， 它 的 因特网 地 址 必须 改变 。 这 些 需 求 导 致 了 实质 性 
的 管理 开销 ， 在 使 用 便携 计算 机 的 情况 下 就 会 有 这 种 开销 。 

IP 地 址 分 配方 案 在 实际 中 并 不 是 很 有 效 。 主 要 的 困难 是 ， 用 户 组 织 中 的 网 络 管理 员 不 能 很 容 
易 地 预测 出 未 来 他 们 对 主机 地 址 需求 的 增长 ， 一 般 都 会 过 高 地 估计 ， 从 而 选择 B 类 地 址 。 到 了 1990 
年 前 后 ， 按 照 当 时 的 IP 地 址 分 配 速度 ， 到 1996 年 前 后 就 可 能 用 完 所 有 的 地 址 。 当 时 采取 了 三 个 步 
又 。 第 一 步 是 开始 开发 新 的 了 P 协 议和 寻 址 方案 ， 结 果 也 就 是 现在 的 IPv6。 

第 二 步 是 从 根本 上 修改 了 地 址 的 分 配方 案 。 一 个 新 的 旨 在 更 加 有 效 地 利用 IP 地 址 空间 的 地 址 分 
配 和 路 由 方案 诞生 了 ， 该 方案 称 为 无 等 级 域 间 路 由 (CIDR)， 我 们 将 在 3.4.3 节 中 讨论 CIDR。 图 
3-10 中 的 局 域 网 拥有 多 个 C 类 地 址 规模 的 子 网 ， 从 138.37.88 到 138.37.95, 这 些 子 网 通过 路 由 器 连接 。 
路 由 器 负责 将 IP 数 据 包 传送 到 所 有 的 子 网 ， 同 时 也 负责 处 理子 网 闻 和 子 网 到 因特网 其 他 部 分 的 流 
量 。 该 图 也 说 明了 使 用 CIDR 划 分 一 个 B 类 地 址 空间 ， 形 成 若干 C 类 地 址 规模 的 子 网 。 

第 三 步 是 使 未 注册 的 计算 机 能 通过 实现 了 网 络 地 址 翻译 (NAT) 方案 的 路 由 器 间接 地 访问 因 
特 网 。 我 们 在 3.4.3 节 讨论 该 方案 。 


3.4.2 IP 协 议 


IP 协 议 将 数据 报 从 一 个 主机 传 到 另 一 个 主机 ， 如 果 需 要 的 话 还 会 经 过 中 间 路 由 器 。 完 整 的 IP 数 
据 包 格式 是 相当 复杂 的 ， 图 3-17 给 出 了 其 主要 组 成 部 分 。 有 一 些 头 部 域 没 有 显示 在 图 中 ， 它 们 是 用 





网 阁 和 有 FE 术 


于 传输 和 路 由 算法 的 。 
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[TT 源 IP 地 址 ”| 目的 地 IP 地 址 | |< 数据 | 
至 多 64KB 


图 3-17 IP 数 据 包 的 布局 








IP 提 供 的 传输 服务 被 描述 成 有 不 可 靠 或 尽力 而 为 这 样 的 传输 语义 ， 因 为 没有 传输 上 的 保证 。 
数据 包 可 能 会 丢失 、 重 复 、 延 迟 或 顺序 错误 ， 但 这 些 错误 只 在 底层 网 络 失败 或 目的 地 缓冲 区 满 的 
时 候 才 会 发 生 。IP 中 唯一 的 校 验 和 是 头 部 的 校 验 和 ， 其 计算 代价 不 高 ， 还 能 确保 检测 到 任何 寻 址 
和 数据 包 管理 数 据 中 发 生 的 错误 。 它 没有 提供 数据 的 校 验 和 ， 这 避免 了 经 过 路 由 器 时 的 开销 ， 而 
是 让 更 高 层 的 协议 (TCP 和 UDP) 来 提供 它们 自己 的 校 验 和 一 一 这 是 端 对 端 争 论 中 的 一 个 实际 例子 
(参见 2.2.1 节 )。 

IP 层 将 IP 数 据 报 放 入 适合 底层 网 络 (例如 以 太 网 ) 传输 的 网 络 数据 包 中 。 当 IP 数 据 报 的 长 度 大 
于 底层 网 络 的 MTU 时 ， 就 在 发 送 端 将 IP 数 据 报 分 割 成 多 个 小 的 数据 包 ， 然 后 在 目的 地 重新 组 装 。 
数据 包 还 可 以 进一步 分 割 以 适合 从 源 地 址 到 目的 地 址 的 路 径 中 所 经 过 的 网 络 (每 个 数据 包 都 有 一 
个 片断 标识 符 ， 使 得 打 乱 顺序 的 各 个 段 能 够 重新 组 合 起 来 ) 

I 层 还 必须 在 底 蝴 网 络 中 插入 消息 目的 地 的 “物理 ”网 络 地 址 。 该 地 址 可 以 从 因特网 网 络 接 
口 层 的 地 址 解析 模块 获得 〈 见 下 一 小 节 的 介绍 ) 。 

地 址 解析 地 址 解析 模块 负责 将 因特网 地 址 转 为 特定 底层 网 络 所 使 用 的 网 络 地 址 (有 时 称 为 物 
理 地 址 ) 。 例 如 ， 如 果 底 层 网 络 是 以 太 网 ， 那 么 地 址 解析 模块 将 把 32 比 特 的 因特网 地 址 转换 成 48 比 
特 的 以 太 网 地 址 。 

这 种 转换 是 与 网 络 技术 相关 的 ， 

* 有 一 些 主机 直接 与 因特网 数据 包 交换 机 相连 ，IP 数 据 包 可 以 不 需要 地 址 翻译 就 路 由 到 它们 。 

“一 些 局 域 网 允许 动态 地 将 网 络 地 址 分 配给 主机 ， 这 样 就 可 以 方便 地 选择 地 址 以 匹配 因特网 地 

址 中 的 主机 标识 符 部 分 一 一 翻译 就 是 从 IP 地 址 中 抽取 主机 标识 符 。 

* 对 于 以 太 网 和 其 他 局 域 网 ， 每 个 计算 机 的 网 络 地 址 都 是 和 它 的 网 络 硬件 接口 固定 的 ， 和 因 特 

网 地 址 没有 直接 的 关系 一 一 翻译 取决 于 主机 的 IP 地 址 和 以 太 网 地 址 间 的 对 应 关系 ， 其 具体 实 

现 是 通过 地 址 解析 协议 (ARP) 完成 的 。 

现在 我 们 概述 一 下 以 太 网 中 ARP 的 实现 。 为 了 能 在 计算 机 加 入 局 域 网 时 让 IP 数 据 包 在 以 太 网 
上 传输 ， 使 用 了 动态 询问 并 利用 缓存 来 减少 询问 消息 。 先 考虑 同一 个 以 太 网 中 一 个 主机 用 IP 向 另 
一 个 主机 传送 消息 的 情况 。 发 送 方 的 IP 软 件 模 块 在 发 送 数据 包 前 ， 必 须 将 IP 数 据 包 中 的 接收 方 的 因 
特 网 地 址 翻译 成 以 太 网 地 址 。 它 调用 发 送 方 的 ARP 模 块 来 完成 这 一 任务 。 

每 个 主机 上 的 ARP 模 块 都 维护 一 个 缓存 ， 保 存 它 以 前 获得 的 IP 地 址 ， 以 太 网 地 址 ) 对 。 如 
果 需 要 的 IP 地 址 位 于 这 个 缓存 中 ， 请 求 就 会 立刻 被 应 答 。 如 果 没 有 需要 的 IP 地 址 ，ARP 模 块 会 在 本 
地 的 以 太 网 上 发 出 一 个 以 太 网 广播 数据 包 〈ARP 请 求 数据 包 ) ， 数 据 包 中 包括 了 所 需 的 IP 地 址 。 本 
地 以 太 网 中 的 每 个 计算 机 都 收 到 这 个 ARP 请 求 数据 包 ， 并 用 自己 的 下 地 址 和 数据 包 中 的 IP 地 址 进行 
匹配 。 如 果 匹 配 ， 就 给 ARP 请 求 的 发 出 方 发 送 一 个 ARP 应 答 ， 应 答 中 包括 自己 的 以 太 网 地 址 ， 如 
果 不 匹 配 ， 就 忽略 该 数据 包 。 发 出 方 的 ARP 模 块 在 自己 的 本 地 (IP 地 址 ， 以 太 网 地 址 ) 缓存 中 加 入 
新 的 下 地 址 一 以 太 网 地址 映射 ,以 后 遇 到 相似 的 请 求 ， 它 就 不 需要 广播 ARP 请 求 了 。 一 段 时 间 之 后 ， 
每 个 计算 机 上 的 ARP 缓 存 中 都 包含 了 所 有 计算 机 的 (IP 地 址 ， 以 太 网 地 址 ) 对。 这 时 只 有 在 有 新 计 
算 机 加 入 到 本 地 以 太 网 时 才 需 要 ARP 广 播 。 

iP 伪 凡 ”我 们 已 经 看 到 ，IP 数 据 包 中 包括 一 个 源 地 址 ~- 一 发 送 方 计 算 机 的 耳 地 址 。 它 与 封装 在 
数据 域 中 的 端口 地 址 (对 于 TCP 和 UDP 数 据 包 ) 一 起 ， 经 常 被 服务 器 用 来 生成 一 个 返回 地 址 。 遗 憾 
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的 是 ， 并 不 能 保证 给 定 的 源 地 址 就 是 真正 的 发 送 方 的 地 址 。 心 怀 蕊 测 的 发 送 者 可 以 轻易 地 使 用 别 
的 地 址 来 代替 它 。 这 个 漏洞 已 成 为 多 起 著名 攻击 的 源头 ， 包 括 1.4.3 节 提 到 的 2000 年 2 月 出 现 的 分 布 
式 拒绝 服务 攻击 [Farrow 2000]。 所 使 用 的 方法 就 是 在 几 个 站 点 向 大 量 的 计算 机 发 出 ping 请 求 (ping 
是 一 个 简单 的 服务 ， 用 于 检查 主机 的 可 用 性 )。 这 些 恶意 的 ping 请 求 在 它们 的 发 送 方 地 址 域 中 都 填 
上 了 目标 计算 机 的 IP 地 址 ， 因 此 ping 的 应 答 就 指向 目标 计算 机 ， 造 成 它们 的 输入 缓冲 溢出， 造成 合 
法 的 IP 数 据 包 无 法 通过 。 这 种 攻击 将 在 第 7 章 中 进一步 讨论 。 


3.4.3 IP 路 由 


IP 层 将 数据 包 从 源 地 址 路 由 到 目的 地 址 。 因 特 网 上 的 每 个 路 由 器 都 实现 了 IP 层 的 软件 ， 用 以 提 
供 一 个 路 由 算法 。 

主干 ”因特网 的 拓扑 图 在 概念 上 被 分 割 成 自治 系统 (Autonomous System, AS)， 再 被 细 分 为 
区 域 。 大 多 数 大 型 机 构 (如 大 学 和 大 公司 ) 的 企业 内 部 网 可 看 作 AS， 通 常 它 们 包含 几 个 区 域 。 在 
图 3-10 中 ， 校 园 网 是 一 个 AS， 图 中 显示 的 部 分 是 一 个 区 域 。 拓 扑 图 上 的 每 个 AS 都 有 一 个 主干 区 域 。 
将 非 主干 区 域 连接 到 主干 区 域 的 路 由 器 集合 ， 以 及 将 这 些 路 由 器 互 连 的 链 路 构成 了 网 络 的 主干 。 
主干 中 的 链 路 通常 带宽 很 高 ， 并 且 为 保证 可 靠 性 ， 链 路 都 被 复制 。 这 样 的 层次 结构 仅 存 在 于 概念 
中 ， 主 要 用 于 管理 资源 与 维护 组 件 。 它 并 不 影响 IP 数 据 包 的 路 由 。 

路 由 协议 RIP-1 作 为 因特网 上 使 用 的 第 一 个 路 由 算法 ， 是 3.3.5 节 中 描述 的 距离 -向量 算法 的 
一 个 版 本 。RIP-2 ( 见 RFC 1388 [Malkin 1993]) 由 它 发 展 而 来 ， 但 包含 了 其 他 需求 ， 如 无 类 别 域 
间 路 由 、 更 好 的 组 播 路 由 以 及 认证 RIP 数 据 包 以 避免 路 由 器 受到 攻击 。 

随 着 因特网 规模 的 扩大 ， 路 由 器 的 处 理 能 力也 不 断 增加 ， 不 再 使 用 距离 一 向 量 算 法 已 成 为 一 
个 趋势 ， 因 为 它 收敛 速度 慢 ， 并 且 具 有 潜在 的 不 稳定 性 。 现 在 趋向 于 使 用 3.3.5 节 中 提 到 的 链 路 一 
状态 算法 ， 这 个 算法 被 称 为 开放 最 短路 径 优先 (Open Shortest Path First, OSPF) 。 该 协议 基于 
Dijkstra[1959] 的 路 径 寻 找 算法 ， 它 比 RIP 算 法 收敛 得 更 快 。 

应 当 注 意 ， 在 IP 路 由 器 中 可 以 渐进 地 采纳 新 路 由 算法 。 路 由 算法 的 变化 将 导致 新 版 本 RIP 协 议 
的 诞生 ， 而 每 个 RIP 数 据 包 会 携带 一 个 版 本 号 。 当 引入 一 个 新 的 RIP 协 议 时 ，IP 协 议 并 不 改变 。 无 
论 使 用 哪个 版 本 的 RIP 协 议 ，IP 路 由 器 都 会 基于 一 个 合理 的 (未 必 是 最 优 的 ) 路 线 ， 将 到 达 的 数据 
包 转 发 出 去 。 但 是 对 于 那些 在 更 新 路 由 表 过 程 中 需要 合作 的 路 由 器 ， 它 们 必须 使 用 相同 的 算法 。 
为 此 ， 需 要 使 用 上 面 定义 的 拓扑 区 域 。 在 每 个 区 域 中 使 用 一 个 路 由 协议 ， 区 域 中 的 路 由 器 在 维护 
路 由 表 时 相互 合作 。 只 支持 RIP-1 的 路 由 器 依然 很 常见 ， 它 们 利用 新 版 本 协议 具有 的 向 后 兼容 特性 ， 
与 支持 RIP-2 和 OSPF 的 路 由 器 共存 。 

1993 年 ， 实 际 观测 获得 的 数据 [Floyd and Jacobson 1993] 表 明 ，RIP 路 由 器 的 信息 交换 频率 为 
30s， 这 会 使 IP 传 输 性 能 产生 周期 性 。IP 数 据 包 传输 的 平均 延迟 每 隔 30s 就 会 出 现 一 个 尖峰 。 这 可 以 
追溯 到 执行 RIP 协 议 的 路 由 器 的 行为 一 一 当 接 收 到 一 个 RIP 数 据 包 时 ， 路 由 器 会 延迟 IP 数 据 包 的 向 前 
传送 ， 直 到 路 由 表 对 当前 收 到 的 所 有 RIP 数 据 包 的 更 新 过 程 结束 。 这 会 引起 路 由 器 一 批 一 批 地 执行 
RIP 动 作 。 建 议 路 由 器 采用 15 ~45s 范 围 内 的 随机 值 作为 RIP 的 更 新 周期 以 进行 纠正 。 

默认 路 由 到 目前 为 止 ， 我 们 对 路 由 算法 的 讨论 说 明 ， 每 个 路 由 器 维护 了 一 个 完整 的 路 由 表 ， 
该 表 显 示 了 到 达 因 特 网 上 每 个 目的 地 ( 子 网 或 直接 连接 的 主机 ) 的 路 线 。 就 因特网 当前 的 规模 而 
言 ， 这 显然 不 可 行 〈 目 的 地 的 数目 可 能 已 经 超过 了 100 万 ， 而 且 仍 在 快速 地 增长 ) 。 

该 问题 有 两 个 可 能 的 解决 方案 ， 为 缓解 因特网 的 增长 所 带 来 的 后 果 ， 这 两 个 方案 同时 被 采纳 。 
第 一 个 方案 是 采用 某 种 形式 的 IP 地 址 拓扑 分 组 。1993 年 以 前 无 法 从 IP 地 址 推断 出 有 关 其 位 置 的 在 何 
信息 。1993 年 ， 为 简化 与 节约 IP 地 址 的 分 配 (这 在 下 文 的 CIDR 中 讨论 )， 对 未 来 地 址 的 分 配 决定 使 
用 下 面 的 地 区 位 置 : 

地 址 194.0.0.0 到 195.255.255.255 在 欧洲 
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地 址 198.0.0.0 到 199.255.255.255 在 北美 地 区 

地 址 200.0.0.0 到 201.255.255.255 在 中 南美 地 区 

地 址 202.0.0.0 到 203.255.255.255 在 亚太 地 区 

因为 这 些 地 理 区 域 也 对 应 于 因特网 上 确切 定义 的 拓扑 区 域 ， 并 且 仅 有 部 分 网 关 路 由 器 提供 了 
对 每 个 区 域 的 访问 ， 所 以 极 大 地 简化 了 这 些 地 址 范围 的 路 由 表 。 例 如 ， 欧 洲 以 外 的 路 由 器 对 于 范 
围 在 194.0.0.0 到 195.255.255.255 的 地 址 ， 可 以 上 只 有 一 个 表 项 。 路 由 器 将 所 有 目的 地 在 这 个 范围 内 的 
IP 数 据 包 使 用 相同 的 路 由 发 送 到 最 近 的 欧洲 网 关 路 由 器 上 。 注 意 ， 在 做 出 这 个 决策 之 前 ， 卫 地 址 的 
分 配 通常 与 拓扑 或 地 理 位 置 无 关 ， 目 前 这 些 地 址 的 大 部 分 仍 在 使 用 ，1993 年 的 决策 无 法 减少 这 些 
地 址 对 应 路 由 表 项 的 规模 。 

解决 路 由 表 大 小 爆炸 性 增长 的 第 二 个 解决 方案 更 简单 而 且 非 常 有 效 。 它 基于 下 述 观察 结果 ， 
如 果 离 主干 链 路 最 近 的 关键 路 由 器 具有 比较 完整 的 路 由 表 ， 那 么 大 多 数 路 由 器 中 的 路 由 表 信息 的 
精确 性 可 以 放宽 。 放 宽 的 表现 形式 为 路 由 表 中 具有 默认 的 目的 地 项 ， 此 默认 项 指定 了 所 有 目的 地 
址 不 在 路 由 表 中 的 IP 数 据 包 所 使 用 的 路 由 。 为 了 说 明 这 种 情况 ， 考 虑 图 3-7 与 图 3-8， 假 设 节点 C 的 
路 由 表 改 为 ， 





路 由 :从 C 








节点 C 忽 略 了 节点 A 与 D。 它 将 所 有 到 达 节 点 A 与 D 的 数据 包 都 通过 链 路 5 路 由 到 E。 结 果 呢 ? 目 
的 地 为 D 的 数据 包 可 以 到 达 其 日 的 地 ， 在 路 由 过 程 中 不 会 损失 有 效 性 ， 但 目的 地 为 A 的 数据 包 会 增 
加 一 跳 ， 需 要 通过 E 和 8B 进行 传输 。 总 之 ， 上 默认 路 由 的 使 用 在 表格 大 小 与 路 由 有 效 性 之 间作 出 了 折 
囊 。 但 在 有 些 情况 下 ， 特 别 是 路 由 器 在 中 继 点 位 置 时 ， 所 有 向 外 发 送 的 消息 必须 通过 某 一 个 点 ， 
此 时 不 会 损失 有 效 性 。 默 认 路 由 方案 在 因特网 路 由 中 使 用 很 广泛 ， 因 特 网 上 没有 一 个 路 由 器 包含 
到 达 所 有 目的 地 的 路 由 。 

本 地 子 网 上 的 路 由 ” 当 数 据 包 的 目的 地 主机 与 发 送 者 在 同一 网 络 上 时 ， 利 用 地 址 的 主机 标识 多 
部 分 可 获得 底层 网 络 上 的 目的 主机 的 地 址 ， 只 需 一 跳 就 能 将 数据 包 传送 到 目的 地 。IP 层 使 用 ARP 来 
获得 目的 地 的 网 络 地 址 ， 然 后 使 用 底层 网 络 来 传输 数据 包 。 

如 果 发 送 方 计算 机 的 IP 层 发 现 目 的 地 在 另 一 个 网 络 上 ， 它 必须 将 消息 发 送 到 一 个 本 地 路 由 器 。 
它 使 用 ARP 获 得 网 关 或 路 由 器 的 网 络 地 址 ， 再 使 用 底层 网 络 将 数据 包 传 送 给 它们 。 网 关 和 路 由 器 
被 连接 到 两 个 或 更 多 的 网 络 上 ， 它 们 具有 多 个 因特网 地 址 ， 每 个 地 址 对 应 一 个 所 连接 的 网 络 。 

无 类 别 域 间 路 由 (CIDR) ”3.4.1 志 指出， 了 地 址 的 短缺 导致 1996 年 引入 CIDR 方 案 ， 该 方案 用 
于 分 配 地 址 以 及 管理 路 由 表 中 的 项 。 主 要 问题 在 于 B 类 地 址 不 足 ，B 类 地 址 用 于 那些 具有 255 个 以 上 
主机 的 子 网 ， 同 时 又 有 大 量 的 C 类 地 址 可 用 。CIDR 对 这 个 问题 的 解决 方案 是 给 那些 需要 255 个 以 上 
地 址 的 子 网 分 配 一 批 连续 的 C 类 地 址 。CIDR 方 案 也 允许 将 B 类 地 址 空间 分 割 ， 以 便 把 它 分 配给 多 个 
子 网 。 

将 C 类 地 址 分 批 似乎 是 一 个 简单 的 方法 ， 但 除非 同时 改变 路 由 表 的 格式 ， 它 才 会 对 路 由 表 的 大 
小 产生 显著 的 影响 ， 进 而 影响 管理 路 由 表 的 算法 的 性 能 。 改 变 路 由 表 的 方法 是 给 路 由 表 增加 一 个 
接 码 域 。 掩 码 是 一 个 位 模式 ， 用 于 选择 与 路 由 表 项 比较 的 卫 地 址 部 分 。 这 有 效 地 使 主机 / 子 网 地 址 
成 为 IP 地 址 的 任意 部 分 ， 比 A 类 、B 类 与 C 类 地 址 提供 了 更 大 的 灵活 性 ， 无 类 别 域 间 路 由 也 因此 得 
名 。 同样， 路 由 器 的 这 些 改变 是 增 量 式 的 ， 所 以 有 些 路 由 器 执行 CIDR， 而 其 他 路 由 器 仍然 使 用 旧 
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的 基于 类 别 的 算法 。 

该 方案 可 以 工作 的 原因 是 新 分 配 的 C 类 地 址 的 范围 是 256 的 模 ， 因 此 每 个 范围 表示 了 C 类 大 小 
的 子 网 地 址 对 应 的 一 个 整数 值 范围 。 另 一 方面 ， 有 些 子 网 也 使 用 CIDR 划 分 单个 网 络 中 的 地 址 范围 ， 
这 个 网 络 可 以 是 A 类 、B 类 或 C 类 网 络 。 如 果 一 组 子 网 完全 由 CIDR 路 由 器 与 外 部 世界 相连 接 ， 那 么 
该 组 子 网 的 下地 址 范围 可 以 成 批 分 配 到 每 个 子 网 中 ， 其 中 由 任意 大 小 的 二 进 制 掩 码 决定 子 网 。 

例如 ， 一 个 C 类 地 址 空间 可 以 划分 为 32 组 的 8 地 址 空间 。 图 3-10 包 含 一 个 使 用 CIDR 机 制 将 
138.37.95 这 样 的 C 类 地 址 规模 的 子 网 划分 为 多 个 组 ， 每 组 包含 8 个 主机 地 址 ， 每 个 地 址 的 路 由 不 同 。 
不 同 的 组 用 138.37.95.232/29 以 及 138.37.95.248/29 等 符号 表示 。 这 些 地 址 中 的 /29 表 示 附 加 一 个 32 的 
掩 码 ， 前 29 位 是 1， 后 3 位 是 0。 

未 注册 的 地 址 和 网 络 地 址 翻译 (NAT) ”不 是 所 有 访问 因特网 的 计算 机 和 设备 都 需要 分 配 全 局 
唯一 的 耳 地 址 。 局 域 网 中 的 计算 机 通过 具有 NAT 功 能 的 路 由 器 访问 因特网 ， 它 依靠 路 由 器 将 到 达 
的 UDP 和 TCP 包 重 定 向 。 图 3-18 给 出 了 一 个 典型 的 家 庭 网 络 ， 其 中 的 计算 机 和 其 他 网 络 设备 通过 一 
个 具有 NAT 功 能 的 路 由 器 与 因特网 相连 。 网 络 包括 能 访问 因特网 的 计算 机 ， 它 们 通过 有 线 以 太 网 
连接 到 路 由 器 ， 还 包括 通过 WiFi 接 入 点 连接 的 设备 。 为 了 保证 完整 性 ， 图 中 给 出 了 一 些 具有 蓝牙 
功能 的 设备 ， 但 它们 不 是 与 路 由 器 连接 ， 因 此 不 能 直接 访问 因特网 。 家 庭 网 络 具 有 由 因特网 服务 
提供 商 分 配 的 一 个 已 注册 的 IP 地 址 (83.215.152.95)。 这 里 描述 的 方法 适合 任何 希望 其 没有 注册 IP 
地 址 的 计算 机 连接 到 因特网 的 组 织 。 

家 庭 网 络 上 所 有 能 访问 因特网 的 设备 都 被 分 配 了 192.168.1.x C 类 子 网 上 的 一 个 未 注册 的 IP 地 
址 。 大 多 数 的 内 部 计算 机 和 设备 由 路 由 器 上 运行 的 动态 主机 配置 协议 (Dynamic Host 
Configuration Protocol, DHCP) 动态 分 配 一 个 IP 地 址 。 在 图 中 ，192.168.1.100 以 上 的 数字 由 DHCP 
服务 使 用 ， 数 字 较 小 的 节点 (例如 PC 1) 已 经 以 手工 方式 分 配 了 数字 ， 这 样 做 的 理由 将 在 后 面 解 
释 。 虽 然 NAT 路 由 器 使 得 这 些 地 址 对 因特网 的 其 他 部 分 完全 隐藏 ， 但 通常 使 用 [ANA 为 私有 互连网 
保留 的 三 块 地 址 (10.z.y.x, 172.16.y.x 或 192.168.y.x) 之 一 中 的 一 段 。 

NAT 的 介绍 见 RFC 1631[Egevang and Francis 1994]， 它 的 扩展 见 RFC 2663fSrisuresh and 
Holdrege 19991]。 具 有 NAT 功 能 的 路 由 器 维护 一 张 地 址 翻译 表 ， 使 用 UDP 和 TCP 包 中 源 和 目的 地 端 
口号 域 ， 将 每 个 到 达 的 应 答 消息 发 给 发 送 该 请 求 消息 的 内 部 计算 机 。 注 意 ， 请 求 消息 中 给 定 的 源 
端口 总 是 被 用 做 相应 应 答 消息 中 的 目的 地 端口 。 

最 常用 的 NAT 寻 址 算法 的 工作 流程 如 下 : 

。 当 内 部 网 络 上 的 计算 机 发 送 一 个 UDP 或 TCP 包 给 网 络 外 的 计算 机 时 ， 路 由 器 接收 到 数据 包 并 

将 源 IP 地 址 和 端口 号 保存 为 地 址 翻译 表 中 一 个 可 用 的 项 。 

*。 路 由 器 用 路 由 器 的 IP 地 址 赫 换 包 中 的 源 地 址 ， 用 虚拟 端口 号 赫 换 源 端 口 ， 虚 所 端口 号 指向 包 

含 发 送 计算 机 的 地 址 信息 的 地 址 翻译 表 项 。 

。 已 修改 源 地 址 和 端口 地 址 的 数据 包 经 路 由 器 向 它 的 目的 地 转发 。 现 在 ， 地 址 翻译 表 包 含 最 新 

的 从 内 部 网 上 计算 机 发 出 的 包 的 端口 号 和 从 虚拟 端口 号 到 实际 内 部 IP 地 址 的 上 映射 。 

。 当 路 由 器 从 外 部 计算 机 处 接收 到 一 个 UDP 或 TCP 包 时 ， 它 使 用 包 中 的 目的 地 端口 号 访问 地 址 

翻译 表 中 的 项 。 它 用 存储 在 表 项 中 的 值 替 换 已 接收 包 中 的 目的 地 址 和 端口 号 ， 然 后 将 修改 后 

的 包 转 发 到 由 目的 地 地 址 标识 的 内 部 计算 机 。 

只 要 该 端口 还 在 使 用 ， 路 由 器 就 将 保留 端口 映射 并 重用 它 。 每 次 路 由 器 访问 表 中 的 一 项 ， 就 
重 设计 时 器 。 如 果 在 计时 器 过 期 之 前 没有 访问 该 表 项 ， 那 么 就 从 表 中 删除 该 表 项 。 

上 述 方 案 很 好 地 解决 了 未 注册 计算 机 的 通信 模式 ， 在 这 种 模式 下 ， 未 注册 计算 机 可 以 作为 外 
部 服务 (例如 Web 服 务 器 ) 的 客户 。 但 未 注册 计算 机 不 能 作为 处 理 到 达 请 求 的 服务 器 。 为 了 处 理 
这 种 情况 ， 可 以 手工 配置 NAT 路 由 器 ， 将 某 个 指定 端口 上 所 有 到 达 的 请 求 转发 到 一 台 指 定 的 内 部 
计算 机 上 。 作 为 服务 器 的 计算 机 必须 保留 同样 的 内 部 卫 地 址 ， 这 一 点 可 通过 手工 分 配 它们 的 地 址 
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(类 似 对 PC1 所 做 的 操作 ) 来 达到 。 只 要 不 要 求 多 于 一 台 内 部 计算 机 在 指定 端口 提供 服务 ， 这 种 提 
供 对 服务 的 外 部 访问 的 解决 方法 是 令 人 满意 的 。 

NAT 是 一 种 解决 个 人 和 家 庭 计算 机 分 配 IP 地 址 的 短期 解决 方案 。 它 使 得 因特网 使 用 的 扩张 得 
比 预 期 的 更 大 ,但 它 也 有 一 些 限制 ， 例 如 上 例 中 的 最 后 一 点 。IPv6 被 看 成 是 下 一 步骤 ， 它 将 使 得 
所 有 计算 机 和 便携 设备 能 全 方位 地 参与 因特网 。 


DSL 或 电 83.215.152.95 
缆 连 接 到 ISP 192.168.1.xx 子 网 
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图 3-18 一 个 典型 的 基于 NAT 的 家 庭 网 络 
3.4.4 IPv6 


人 们 在 寻找 有 关 IPv4 地 址 局 限 问题 的 更 永久 的 解决 方案 ， 这 导致 了 具有 更 大 地 址 空间 的 新 版 
本 的 IP 协 议 的 开发 与 使 用 。 早 在 1990 年 ，IETF 就 注意 到 IPv4 的 32 比 特地 址 所 带 来 的 潜在 问题 ， 并 
启动 了 开发 新 版 本 IP 协 议 的 项 目 。1994 年 ，IETF 采 纳 了 IPvV6， 并 且 给 出 了 版 本 迁移 方法 的 建议 。 

图 3-19 显 示 了 IPv6 头 的 格式 。 在 此 ， 我 们 不 详细 介绍 它们 的 构造 方法 。 要 获得 有 关 IPv6 的 相关 
内 容 ， 读 者 可 以 参考 Tanenbaum[2003] 或 Stallings[1998a]。 要 获得 IPv6 设 计 过 程 与 实现 计划 详尽 的 
介绍 ， 可 以 参阅 Huitema[1998]。 这 里 将 概述 IPv6 的 主要 改进 。 





图 3-19 IPv6 头 部 格式 


地 址 空间 : IPv6 的 地 址 有 128 比 特 (16 字 节 )。 这 提供 了 海量 的 可 寻 址 实体 数 : 2'”， 即 大 约 
3 x 10”。 据 Tanenbaum 计 算 ， 在 整个 地 球 表面 ， 每 平方 米 空间 可 以 有 7 x 102 个 IP 地 址 。Huitema 的 
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估计 比较 保守 ， 他 假设 IP 地 址 的 分 配 像 电 话 号 码 一 样 不 经 济 ， 则 整个 地 球 表面 的 每 平方 米 空间 
(陆地 与 水 面 ) 可 以 有 1000 个 下 地 址 。 

IPv6 地 址 空间 进行 了 分 区 。 在 此 我 们 不 详细 介绍 分 区 ， 但 即使 是 最 小 的 分 区 〈 其 中 的 一 个 分 
区 会 包含 整个 IPv4 地 址 范围 ， 这 里 地 址 的 映射 是 一 对 一 的 ) 也 远 远大 于 整个 IPv4 地 址 空间 。 很 多 分 
区 〈 占 总 数 的 72% 左 右 ) 被 保留 ， 目 前 为 止 向 未 被 定义 。 两 个 大 的 分 区 (每 个 分 区 包含 1/8 的 IP 地 

空间 ) 作为 日 常 使 用 ， 将 被 分 配给 普通 的 网 络 节点 。 其 中 的 一 个 分 区 根据 地 址 节点 的 地 理 位 置 
组 织 ， 而 另 一 个 分 区 根据 机 构 位 置 组 织 。 这 提供 了 两 种 不 同 的 用 于 聚 类 地 址 的 策略 以 便 进行 路 
由 一 一 而 哪 种 将 更 有 效 或 更 流行 还 有 待 观 察 。 

路 由 速度 : 基本 IPv6 头 部 的 复杂 度 以 及 在 每 个 节点 上 的 处 理 时 间 都 被 降低 。 数 据 包 的 内 容 
(有 效 负载 ) 不 使 用 任何 校 验 和 ， 一 旦 数据 包 开 始 传输 ， 就 不 能 再 将 它 分 段 。 前 者 被 认为 是 可 接受 
的 ， 因 为 可 在 更 高 层 检测 错误 (TCP 确实 包含 了 一 个 内 容 校 验 和 )， 而 后 者 通过 支持 在 发 送 数据 包 
前 确定 最 小 的 MTU 而 达到 目的 。 

实时 以 及 其 他 特殊 服务 : 流量 类 别 与 流标 号 域 与 此 有 关 ， 多 媒体 流 以 及 其 他 实时 数据 元 素 序 
列 可 作为 被 标识 的 流 的 一 部 分 传输 。 流 量 类 别 的 前 六 位 可 与 流标 号 同时 使 用 ， 也 可 以 独立 使 用 ， 
以 使 指定 数据 包 比 其 他 数据 包 的 处 理 速度 更 快 或 是 更 可 靠 。 流 量 类 别 值 0 ~8 用 于 即使 有 延迟 也 不 
会 对 应 用 造成 灾难 性 后 果 的 传输 。 其 他 值 被 保留 ， 用 于 传输 依赖 于 时 间 的 数据 包 ， 这 些 数据 包 或 
者 被 迅速 地 发 送 ， 或 者 被 丢弃 一 一 迟到 的 数据 包 毫 无 意义 。 

流标 号 使 得 资源 被 保留 ， 以 便 满 足 特定 实时 数据 流 (例如 有 播 的 音频 与 视频 传输 ) 的 时 间 需 
求 。 第 17 章 将 讨论 它们 的 资源 分 配 需求 与 分 配方 法 。 当 然 ， 因 特 网 上 的 路 由 器 与 传输 链 路 的 资源 
有 限 ， 为 特定 用 户 预 留 资 源 的 概念 和 应 用 以 前 未 曾 考虑 。 使 用 IPv6 的 这 些 设施 将 依赖 于 基础 设施 
的 增强 ， 以 及 使 用 合适 的 方法 对 资源 的 分 配 进行 收费 与 仲裁 。 

未 来 的 发 展 : 提供 未 来 发 展 的 关键 是 下 一 个 头 域 。 若 该 域 为 非 0， 则 它 定 义 了 数据 包 中 的 扩展 
头 的 类 型 。 目 前 的 扩展 头 类 型 为 下 列 类 型 的 特殊 服务 提供 附加 数据 : 路 由 器 信息 、 路 由 定义 、 片 
断 处 理 、 认 证 、 加 密 信 息 以 及 目的 地 处 理 信息 。 每 个 扩展 头 类 型 具有 明确 的 大 小 以 及 预定 义 的 格 
式 。 当 出 现 新 的 服务 需求 时 ， 可 以 定义 进一步 的 扩展 头 类 型 。 扩 展 头 (如果 存在 的 话 ) 放 在 基本 
头 之 后 有 效 负荷 之 前 ， 它 会 包含 下 一 个 头 域 ， 使 数据 包 可 以 使 用 多 个 扩展 头 。 

组 播 与 任意 播 : IPv4 与 1Pv6 支 持 将 IP 数 据 包 通过 一 个 地 址 (属于 专 为 组 播 保留 的 地 址 范围 ) 传 
送 到 多 个 主机 的 传输 机 制 。IP 路 由 器 负责 将 数据 包 路 由 到 所 有 订阅 了 该 组 (这 个 组 由 相关 的 地 址 
标识 ) 的 主机 。IP 组 播 通 信 的 详细 描述 可 参见 4.5.1 节 。 另 外 ，IPv6 支 持 一 种 称 为 任意 播 的 新 的 传 
输 模式 。 该 服务 将 数据 包 发 给 至 少 一 个 订阅 了 相关 地 址 的 主机 。 

安全 : 到 目前 为 止 ， 需要 认证 的 因特网 应 用 或 私密 性 数据 传输 依赖 于 应 用 层 的 加 密 技 术 。 端 
到 端的 争论 支持 应 该 在 应 用 层 实现 安全 协议 的 论点 。 如 果 在 IP 层 实现 安全 性 ， 那 么 用 户 与 应 用 程 
序 开发 者 依赖 于 传输 路 径 上 的 每 个 路 由 器 都 正确 地 实现 了 加 密 算 法 ， 为 处 理 密 钥 ， 他 们 必须 信任 
路 由 器 以 及 其 他 中 间 节 点 。 

在 IP 层 实现 安全 性 的 好 处 在 于 ， 它 可 用 于 应 用 程序 不 清楚 具体 安全 实现 的 场合 。 例 如 ， 系 统 
管理 员 可 以 将 它 实现 到 防火 墙 中 ， 将 它 统一 应 用 到 所 有 对 外 的 通信 中 ， 而 内 部 通信 可 以 不 用 加 密 
而 省 却 了 相应 的 开销 。 路 由 器 也 可 利用 IP 级 的 安全 机 制 ， 从 而 保证 它们 之 间 交 换 的 路 由 表 更 新 消 
息 的 安全 。 

在 IPv6 中 使 用 认证 与 加 密 的 安全 性 有 效 负 载 扩 展 头 类 型 实现 安全 性 。 这 些 实现 特征 与 2.3.3 节 
介绍 的 安全 通道 的 概念 类 似 。 根 据 需要 ， 可 给 有 效 负载 加 窗 或 者 (并 且 ) 应 用 数字 签名 。 类 似 的 
安全 特征 也 可 在 IPv4 中 获得 ， 这 时 使 用 了 实现 IPSec 规 约 ( 见 RFC 2411 [Thayer 1998]) 的 IP 隧 道 。 

从 IPv4 迁 移 ”改变 因特网 基础 设施 的 基本 协议 层 带 来 的 后 果 是 深远 的 。 每 台 主机 的 TCP/IP 协 
议 栈 和 路 由 器 软件 都 需要 处 理 耻 ， 很 多 应 用 与 实用 程序 都 需要 处 理 卫 地址。 为 了 支持 新 版 本 的 IP 协 
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议 ， 上 述 应 用 都 需要 升级 。 进 行 这 个 改变 是 不 可 避免 的 ， 因 为 IPv4 提 供 的 地 址 空间 即将 耗 尽 。 负 
责 IPv6 协 议 的 IETF 工 作 组 定义 了 一 个 迁移 策略 ， 它 主要 涉及 下 列 问题 的 实现 : 使 用 隧道 技术 ， 将 
LIPv6 的 路 由 器 和 主机 “岛屿 ” 与 其 他 IPv6“ 岛 同 ” 通 信 ， 然 后 逐渐 地 形成 一 个 大 的 “岛屿 。 

我 们 在 前 面 提 到 过 ，IPv6 路 由 器 和 主机 在 处 理 混合 流量 时 应 该 没有 任何 困难 ， 因 为 IPv4 地 址 
空间 被 嵌入 到 IPv6 空 间 内 。 所 有 主要 的 操作 系统 (Windows XP、MacOS X、Linux 和 其 他 UNIX 变 
体 ) 已 经 包括 了 在 IPv6 上 UDP 和 TCP 套 接 字 ( 见 第 4 章 ) 的 实现 ， 这 使 得 应 用 能 通过 简单 的 升级 完 
成 迁移 。 

该 策略 的 理论 从 技术 上 说 是 可 行 的 ， 但 实现 过 程 非常 缓慢 ， 这 也 许 是 由 于 CIDR 和 NAT 已 经 减 
轻 了 所 期 望 的 更 大 范围 使 用 因特网 的 压力 ， 但 这 在 移动 电话 和 便携 设备 市 场 已 经 发 生 了 改变 。 所 
有 这 些 设 备 在 不 久 的 将 来 就 可 能 具备 访问 因特网 的 功能 ， 同 时 它们 不 能 容易 地 隐藏 在 NAT 路 由 器 
后 面 。 例 如 ， 预 计 到 2014 年 ， 印 度 和 中 国 将 部 署 超过 10 亿 台 IP 设 备 。 只 有 IPv6 能 解决 这 样 的 需求 。 


3.4.5 移动 IP 


像 笔记 本 电脑 和 掌上 电脑 这 样 的 移动 计算 机 可 以 在 移动 时 从 不 同 的 位 置 连 接 到 因特网 。 当 用 
户 在 自己 办 公 室 时 ， 笔 记 本 电脑 可 以 先 连 接 到 本 地 以 太 网 ， 然 后 通过 路 由 器 连接 到 因特网 ， 在 乘 
车 旅行 途中 ， 可 以 通过 移动 电话 连接 到 因特网 ， 然 后 ， 在 另 一 个 地 点 连接 到 以 太 网 上 。 用 户 希 户 
在 任何 一 个 地 方 查看 电子 邮件 和 访问 Web。 

对 服务 的 简单 访问 并 不 需要 移动 计算 机 保留 一 个 地 址 ， 它 可 在 任意 地 方 获得 一 个 新 的 IP 地 址 。 
动态 主机 配置 协议 DHCP) 正 是 用 于 这 一 目的 的 ， 它 使 新 接 人 网 络 的 计算 机 动态 获得 一 个 在 本 地 
子 网 地 址 范围 内 的 了 地址 ， 并 从 从 本 地 DHCP 服 务 器 上 找到 诸如 DNS 服务 器 这 样 的 本 地 资源 地 址 ， 
它 也 需要 找到 它 所 访问 的 每 个 站 点 上 有 哪些 本 地 服务 (如 打印 、 邮 件 传送 等 )。 发 现 服务 是 有 助 于 
完成 此 工作 的 一 种 命名 服务 ， 其 具体 内 容 将 在 第 16 章 16.2 节 ) 中 介绍 。 

笔记 本 电脑 上 可 能 有 其 他 人 员 需 要 访问 的 文件 或 其 他 资源 ， 或 者 它 正 在 运行 分 布 式 应 用 (如 
共享 监控 服务 ) ， 它 接收 用 户 拥有 的 股票 超过 一 定 阔 值 这 样 的 特定 事件 的 通知 。 当 移动 计算 机 在 局 
域 网 和 无 线 网 络 之 间 移 动 时 ， 如 果 要 让 用 户 和 资源 共享 应 用 访问 移动 计算 机 ， 移 动 计算 机 必须 保 
持 单个 IP 号 ， 但 IP 路 由 是 基于 子 网 的 。 子 网 位 于 固定 的 地 点 ， 将 数据 包 正确 地 路 由 到 子 网 取决 于 子 
网 在 网 络 上 的 位 置 。 

移动 iP 是 后 一 个 问题 的 解决 方案 ， 该 方案 的 实现 对 用 户 是 透明 的 ， 因 此 当 移 动 主机 在 不 同位 
置 的 子 网 中 移动 时 ，IP 通 信 会 继续 正常 地 进行 。 这 是 因为 “ 主 ”(home) 域 的 子 网 中 的 每 台 移动 主 
机 拥有 永久 固定 的 IP 地 址 。 

当 移动 主机 在 “ 主 站 点 ”中 连接 到 因特网 时 ， 数 据 包 会 以 正常 方式 路 由 到 主机 上 ， 当 移动 主 
机 在 其 他 地 方 连 入 因特网 时 ， 有 两 个 代理 进程 负责 重新 路 由 。 它 们 是 主 代理 (HA) 与 外 地 代理 
(FA)。 这 些 进程 运行 在 家 站 点 以 及 移动 主机 当前 所 在 位 置 处 的 固定 计算 机 上 。 

HA 负责 保存 移动 主机 当前 位 置 ( 即 可 以 到 达 该 移动 计算 机 的 IP 地 址 ) 的 最 新 情况 ， 它 在 移动 
主机 自身 的 帮助 下 完成 该 功能 。 当 一 个 移动 主机 离开 主 站 点 时 ， 它 会 告知 8A，HA 会 注意 到 该 移 
动 主机 离开 。 当 主机 离开 时 ，HA 就 充当 一 个 代理 服务 器 。 为 实现 代理 功能 ，HA 会 通知 本 地 路 由 
器 取消 与 移动 主机 IP 地 址 有 关 的 任何 缓存 记录 。 当 HA 作为 一 个 代理 服务 器 时 ，HA 会 响应 有 关 移 动 
主机 IP 地 址 的 ARP 请 求 ， 将 自己 的 局 域 网 地 址 作为 移动 主机 的 网 络 地 址 发 送 给 该 请 求 。 

当 移动 主机 到 达 一 个 新 站 点 时 ， 它 会 通知 在 此 站 点 上 的 FA。FA 给 它 分 配 一 个 “转交 ”地 
址 一 一 个 本 地 子 网 上 的 新 的 临时 IP 地 址 。 然 后 FA 与 HA 联系 ， 将 移动 主机 的 主 IP 地 址 以 及 分 配给 
它 的 转交 地 址 告知 HA， 

图 3-20 说 明了 移动 了 的 路 由 机 制 。 当 一 个 以 移动 主机 的 主 地 址 为 地 址 的 IP 数 据 包 被 传送 到 主 网 
络 上 时 ， 它 将 被 路 由 到 HA。 然 后 ，HA 将 该 IP 数 据 包 封装 到 一 个 移动 IP 数 据 包 中 ， 并 发 送 给 FA。 


ee 


FA 拆 解 出 原来 的 IP 数 据 包 ， 并 通过 它 当 前 连接 的 局 域 网 发 送 到 移动 主机 。 注 意 ，HA 与 FA 将 原始 
数据 包 重新 路 由 到 预期 接收 者 的 方法 ， 是 3.3.7 节 描述 的 隧道 传输 技术 的 实例 。 
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的 FA 地 址 
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图 3-20 移动 IP 路 由 机 制 


HA 也 将 移动 主机 的 转交 地 址 发 送 到 原来 的 发 送 者 。 如 果 发 送 者 支持 移动 IP， 它 将 注意 到 新 的 
地 址 ， 并 且 使 用 新 的 地 址 与 移动 主机 接着 通信 ， 避 免 了 通过 HA 重新 路 由 的 开销 。 如 果 发 送 者 不 支 
持 移动 IP， 它 将 忽视 地 址 的 改变 ， 而 后 续 的 通信 依然 通过 HA 重新 路 由 。 

移动 IP 方 案 是 可 行 的 ， 但 还 不 是 十 分 有 效 。 将 移动 主机 作为 一 等 公民 的 方法 会 更 好 一 些 ， 这 
样 可 以 允许 主机 漫游 时 无 需 预先 给 出 通知 ， 并 且 不 必 使 用 隧道 技术 就 可 将 数据 包 路 由 到 主机 。 应 
该 注意 ， 这 个 看 上 去 很 难 的 技术 已 在 移动 电话 网 中 实现 一 一 当 移 动 电话 在 不 同 蜂窝 乃至 国家 之 间 移 
动 时 ， 并 不 需要 改变 电话 号 码 。 它 们 只 需 时 常 通知 本 地 移动 电话 网 基站 它们 的 存在 即 可 。 


3.4.6 TCP 和 UDP 


TCP 和 UDP 以 一 种 对 应 用 程序 有 用 的 形式 提供 了 因特网 的 通信 能 力 。 应 用 开发 者 可 能 需要 其 
他 类 型 的 传输 服务 ， 如 提供 实时 保证 或 安全 性 ， 但 这 些 服务 需要 比 IPv4 更 多 的 网 络 层 支持 。TCP 和 
UDP 忠实 地 反映 了 IPv4 提 供 的 应 用 编程 级 的 通信 设施 。IPv6 是 另 一 件 事 ， 它 必然 会 继续 支持 TCP 和 
UDP， 但 它 包 含 了 通过 TCP 和 UDP 无 法 方便 访问 的 功能 。 当 IPv6 的 部 署 已 足够 广 使 得 那些 功能 被 证 
明 应 该 被 开发 的 时 候 ， 可 引入 其 他 类 型 的 传输 服务 来 挖掘 这 些 功 能 。 

第 4 章 从 分 布 式 程序 开发 者 的 角度 描述 了 TCP 和 UDP 的 特征 。 这 里 我 们 仅 描述 它们 给 IP 加 入 的 
功能 。 

端口 的 使 用 第 一 个 要 注意 的 特征 是 ,尽管 下 协议 支持 两 台 计算 机 (由 卫 地 址 标识 ) 之 间 的 通信 ， 
但 作为 传输 层 的 协议 ，TCP 和 UDP 必须 提供 进程 到 进程 的 通信 。 这 通过 使 用 端口 来 完成 。 端 口号 用 
于 将 消息 寻 址 到 特定 计算 机 上 的 进程 ， 它 仅 在 此 计算 机 上 有 效 。 端 口号 是 一 个 16 位 整数 。 一 旦 一 个 
IP 数 据 包 被 发 送 到 目的 主机 ，TCP 或 UDP 层 的 软件 就 通过 该 主机 的 特定 端口 将 它 分 派 到 一 个 进程 中 。 

UDP 的 特点 “UDP 基本 上 是 下 在 传输 层 的 一 个 复制 。UDP 数 据 报 被 封装 在 一 个 IP 数 据 包 中 ， 它 
具有 一 个 包含 了 源 和 目的 端口 号 的 短 的 头 部 〈 相 应 的 主机 地 址 位 于 卫 头 部 ) 、 一 个 长 度 域 和 一 个 校 
验 和 。UDP 不 提供 传输 保证 。 我 们 已 经 注意 到 ，IP 数 据 包 可 能 会 由 于 拥塞 或 网 络 错误 被 丢弃 。 除 
了 可 选 的 校 验 和 外 ，UDP 未 增加 任何 额外 的 可 靠 性 机 制 。 如 果 校 验 和 域 非 零 ， 则 接收 主机 根据 数 
据 包 内 容 计算 出 一 个 校 验 值 ， 与 接收 到 的 校 验 和 相 比 ， 若 两 者 不 匹配 则 数据 包 被 丢弃 。 

因此 ， 依 赖 IP 传 输 ，UDP 提 供 了 一 种 在 IP 上 附加 最 小 开销 或 传输 延迟 、 在 进程 对 (或 者 在 数据 
报 地 址 是 IP 组 播 地 址 情况 下 ， 从 一 个 进程 发 送 到 多 个 进程 ) ,之 间 传 送 最 长 达 64KB 的 消息 的 方法 。 
它 不 需要 任何 创建 开销 以 及 管理 用 的 确认 消息 ， 但 它 只 适应 于 不 需要 可 靠 传 送 单个 或 多 个 消息 的 
服务 和 应 用 。 

TCP 的 特点 。 TCP 提供 了 一 个 更 复杂 的 传输 服务 。 它 通过 基于 流 的 编程 抽象 ， 提 供 了 任意 长 度 
字 节 串 的 可 靠 传输 。 可 靠 性 保证 使 得 发 送 进程 递交 给 TCP 软 件 的 数据 传送 到 接收 进程 时 ， 其 顺序 是 
相同 的 。TCP 是 面向 连接 的 ， 在 数据 被 传送 前 ， 发 送 进程 和 接收 进程 必须 合作 ， 建 立 一 个 双向 的 通 
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信 通 道 。 连 接 只 是 一 个 执行 可 靠 数据 传输 的 端 到 端的 协议 ， 中 间 节 点 (如 路 由 器 ) 并 没有 关于 TCP 
连接 的 知识 、 一 个 TCP 传 输 中 传输 数据 的 所 有 IP 数 据 包 并 不 一 定 使 用 相同 的 路 由 。 

TCP 层 包含 额外 机 制 〈 在 正之 上 实现 ) 以 保证 可 靠 性 。 这 些 机 制 包括 : 

排序 : TCP 发 送 进 程 将 流 分 割 成 数据 片断 序列 ， 然 后 将 之 作为 IP 数 据 包 传送 。 每 个 TCP 片 断 均 
有 一 个 序号 。 它 在 该 片断 的 第 一 个 字 节 给 出 流 中 的 宇 节 数 。 接 收 程序 在 将 数据 放 入 接收 进程 的 输 
入 流 前 ， 使 用 序号 对 收 到 的 片断 排序 。 只 有 所 有 编号 较 小 的 片断 都 已 收 到 并 且 放 入 流 中 后 ， 编 号 
大 的 片断 才能 被 放 入 流 中 ， 因 此 ， 未 按 顺 序 到 达 的 片断 必须 保留 在 一 个 缓冲 区 中 ， 直 到 它 前 面 的 
片断 到 达 为 止 。 

流 控制 : 发 送 方 管理 不 能 使 接收 方 或 是 中 间 节 点 过 载 ， 这 通过 片断 确认 机 制 完成 。 当 接收 方 
成 功 地 接收 了 一 个 片断 后 ， 它 会 记录 该 片断 的 序号 。 接 收 方 会 不 时 地 向 发 送 方 发 送 确认 信息 ， 给 
出 输入 流 中 片断 的 最 大 序号 以 及 窗口 大 小 。 如 果 有 反 向 的 数据 流 ， 则 确认 信息 被 包含 在 正常 的 片 
断 中 ， 否 则 被 放 在 确认 数据 片 中 。 确 认 片 断 中 的 窗口 大 小 域 指定 了 在 下 一 个 确认 之 前 允许 发 送 方 
传送 的 数据 量 。 

当 一 个 TCP 连 接 用 于 与 一 个 远程 交互 程序 通信 时 , 会 狂 发 产生 数据 , 但 产生 的 数据 量 可 能 很 小 。 
例如 ， 利 用 键盘 输入 可 能 每 秒 仅 输入 几 个 字符 ， 但 字符 的 显示 必须 是 够 快 ， 以 便 用 户 看 到 自己 的 
打字 结果 。 这 通过 在 本 地 缓冲 区 中 设置 一 个 超时 值 Z (一 般 是 0.5s) 来 实现 。 使 用 这 个 简单 的 方案 ， 
只 要 数据 片 已 在 输出 缓冲 区 中 停留 7 秒 , 或 是 缓冲 区 的 内 容 到 达 MTU 限 制 ,就 将 片断 发 送 到 接收 方 。 
该 缓冲 区 方案 不 会 使 交互 式 延迟 再 增加 7 秒 以 上 。Nagle 描 述 了 另 一 个 产生 较 少 流量 的 算法 ， 它 对 
一 些 交 互 式 应 用 更 有 效 [Nagle 1984]。Nagle 的 算法 已 用 于 许多 TCP 实 现 中 。 大 多 数 TCP 实 现 是 可 以 
配置 的 ， 允 许 应 用 程序 修改 7 值 ， 或 是 在 几 个 缓冲 区 算法 中 选择 其 一 。 

由 于 无 线 网 络 的 不 可 靠 性 ， 会 导致 数据 包 丢 失 频 繁 发 生 ， 上 面 的 流 控制 机 制 对 于 无 线 通信 不 
是 特别 适用 。 这 是 广 域 移动 通信 使 用 的 WAP 协 议 族 采纳 另 一 种 传输 机 制 的 原因 。 但 对 无 线 网 络 而 
言 ， 实 现 TCP 也 是 很 重要 和 的， 为 此 提出 了 TCP 机 制 的 修改 提议 [Balakrishnan et al. 1995， 1996]。 其 
思想 是 在 无 线 基站 (有 线 网 络 和 无 线 网 络 之 间 的 网 关 ) 实现 一 个 TCP 支 持 组 件 。 该 组 件 探听 进出 无 
线 网 络 的 TCP 片 断 , 重 传 任何 未 被 移动 接收 方 快速 确认 的 外 发 片断 , 并 且 在 注意 到 序列 号 有 间隔 时 ， 
请 求 重 传 接收 数据 。 

重 传 : 发 送 方 记 录 它 发 送 的 片断 的 序号 。 当 它 接 收 到 一 个 确认 消息 时 ， 它 知道 片断 被 成 功 接 
收 ， 并 将 之 从 外 发 缓冲 区 中 清除 。 如 果 在 一 个 指定 超时 时 间 内 ， 片 断 并 没有 得 到 确认 ， 则 发 送 方 
重 发 该 片断 。 

缓冲， 接收 方 的 接收 缓冲 区 用 于 平衡 发 送 方 和 接收 方 之 间 的 流量 。 如 果 接 收 进程 发 出 receive 
操作 的 速度 比 发 送 进程 发 出 send 操 作 的 速度 慢 很 多 , 那么 缓冲 区 中 的 数据 量 就 会 增加 。 通常 情况 下 ， 
数据 在 缓冲 区 满 之 前 被 取出 ， 但 最 终 缓冲 区 会 溢出 ， 此 时 到 达 的 片断 不 被 记录 就 直接 被 丢弃 了 。 
因此 ， 接 收 方 不 会 给 出 相应 的 确认 ， 而 发 送 方 将 被 迫 重新 发 送 片断 。 

校 验 和 : 每 个 片断 包含 一 个 对 头 部 和 片断 中 数据 的 校 验 和 ， 如 果 接 收 到 的 片断 和 校 验 和 不 匹 
配 ， 则 片断 被 丢弃 。 


3.4.7 域名 


第 9 章 将 详细 介绍 域名 系统 (DNS) 的 设计 与 实现 ， 在 此 我 们 只 人 短 简 单 的 介绍 ， 以 完成 本 章 有 关 
因特网 协议 的 讨论 。 因 特 网 支持 一 种 使 用 符号 名 标识 主机 和 网 络 的 方案 ， 如 binkley.cs.mcgill.ca 或 
essex.ac.uk。 已 命名 的 实体 被 组 织 成 一 个 命名 层次 结构 。 已 命名 的 实体 称 为 域 ， 而 符号 名 称 为 域名 。 
域 被 组 织 成 一 个 层次 结构 ， 以 便 反映 它们 的 组 织 结 构 。 命 名 层次 结构 与 构成 因特网 的 网 络 物 理 布局 
完全 无 关 。 域名 对 于 用 户 很 方便 , 但 它们 在 被 用 作 通 信 标 识 符 之 前 , 必须 翻译 成 因特网 地 址 (IP 地 址 )， 
这 是 DNS 服务 的 职责 。 应 用 程序 将 请 求 发 送 给 DNS ， 以 便 将 用 户 指定 的 域名 转化 成 因特网 地 址 。 
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DNS 实现 为 一 个 可 在 因特网 的 任意 主机 上 运行 的 服务 器 进程 。 每 个 域 至 少 有 两 台 DNS 服 务 器 ， 
一 般 情 况 下 会 更 多 。 每 个 域 的 服务 器 持 有 该 域 之 下 的 域名 树 的 部 分 视图 。 它 们 至 少 必须 存储 自己 
域 中 的 所 有 域名 和 主机 名 ， 但 通常 包含 树 的 更 大 的 部 分 。 若 DNS 服务 器 接收 到 的 请 求 中 ， 需 要 翻 
译 的 域名 在 自己 所 保存 的 那 部 分 树 以 外 ， 则 DNS 服务 器 通过 向 相关 域 的 服务 器 发 送 请 求 ， 递 归 地 
自 右 向 左 解析 名 字 的 各 个 部 分 。 翻 译 结果 缓存 在 处 理 原 始 请 求 的 服务 器 上 ， 以 便 未 来 处 理 同一 域 
名 请 求 时 ， 无 需 查阅 其 他 服务 器 就 可 以 解析 该 名 字 。 若 不 广泛 地 使 用 缓存 技术 ，DNS 将 无 法 工作 ， 
因为 基本 上 在 每 种 情况 下 都 会 查询 “ 根 ” 名 字 服 务 器 ， 从 而 形成 一 个 服务 访问 瓶颈 。 


3.4.8 防火 墙 


几乎 所 有 的 组 织 都 需要 连接 因特网 ， 以 便 给 顾客 或 其 他 外 部 用 户 提供 服务 ， 同 时 使 内 部 用 户 
可 以 访问 信息 和 服务 。 大 多 数组 织 中 的 计算 机 是 完全 不 同 的 ， 它 们 运行 不 同 的 操作 系统 和 应 用 软 
件 。 软 件 的 安全 性 差别 更 大 ， 有 些 软件 提供 了 先进 的 安全 措施 ， 但 大 多 数 软件 没有 能 力 或 有 很 少 
的 能 力 保证 进入 的 通信 是 可 靠 的 ， 向 外 的 通信 和 是 私密 的 。 总 之 ， 在 一 个 有 很 多 计算 机 和 多 种 软件 
的 企业 内 部 网 中 ， 系 统 的 有 些 部 分 在 安全 攻击 下 会 非常 地 脆弱 是 不 可 避免 的 。 攻 击 的 形式 将 在 第 7 
章 中 详细 讨论 。 

防火 墙 的 目的 在 于 监视 和 控制 进出 企业 内 部 网 的 所 有 通信 。 防 火 墙 由 一 组 进程 实现 ， 它 作为 
通 向 企业 内 部 网 的 网 关 (参见 图 3-21a) ， 应 用 了 组 织 规定 的 安全 策略 。 


路 由 器 / ” 受 保护 的 企业 内 部 网 





a) 过 滤 型 路 由 器 
路 由 器 /过 滤器 “堡垒 





b) 过 滤 型 路 由 器 和 堡垒 . 
路 由 器 /过 滤器 、 堡垒 路 由 器 /过 滤器 





c) 用 于 堡垒 的 屏蔽 的 子 网 中 
图 3-21 防火 墙 配置 


防火 墙 安全 策略 的 目标 可 能 包括 下 面 的 某 些 或 所 有 内 容 : 

服务 控制 : 用 于 确定 内 部 主机 上 的 哪些 服务 可 以 接受 外 部 访问 ， 并 拒绝 其 他 的 服务 请 求 。 外 
发 服务 请 求 和 应 答 也 受到 控制 。 这 些 过 滤 行 为 可 以 基于 IP 数 据 包 的 内 容 以 及 其 中 包含 的 TCP 和 
UDP 请 求 来 完成 。 例 如 ， 到 达 的 HTTP 请 求 的 目的 地 应 该 是 官方 的 Web 服 务 器 主机 ， 否 则 该 请 求 会 
被 拒绝 。 

行为 控制 : 行为 控制 用 于 防止 破坏 公司 策略 的 、 反 社会 的 、 找 不 到 可 辨认 的 合法 目的 的 行为 ， 
这 些 行 为 被 怀疑 为 构成 了 攻击 的 一 部 分 。 其 中 的 某 些 过 滤 行 为 可 在 IP 或 TCP 层 进行 ， 但 其 他 行为 可 
能 需要 在 更 高 层 对 消息 进行 解释 。 例 如 ， 过 滤 垃 圾 邮件 攻击 需要 检查 消息 头 中 发 送 方 的 邮件 地 址 ， 
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甚至 是 消息 内 容 。 

用 户 控制 : 组 织 可 能 希望 在 用 户 之 间 加 以 区 分 ， 人 允许 某 些 用 户 访问 外 部 服务 ， 而 其 他 用 户 则 
禁止 访问 外 部 服务 。 另 一 个 大 家 更 易 接 收 的 用 户 控制 例子 是 ， 避 免 接 收 系统 管理 组 成 员 以 外 的 其 
他 用 户 的 软件 ， 以 免 感染 病毒 或 是 维护 软件 标准 。 这 是 个 特殊 的 例子 ， 如 果 不 禁 止 普 通用 户 使 用 
Web， 要 想 实现 上 述 目 的 是 很 困难 的 。 

用 户 控制 的 另 一 个 实例 是 拨号 以 及 其 他 为 不 在 站 点 的 用 户 提供 连接 的 管理 。 如 果 防 火 墙 同时 
也 是 通过 调制 解 调 器 连接 的 主机 ， 它 可 以 在 连接 时 认证 用 户 ， 并 且 对 所 有 通信 使 用 一 个 安全 通道 
(防止 外 来 的 窃听 、 伪 装 和 其 他 攻击 )。 这 是 下 一 节 将 要 描述 的 虚拟 私 网 (VPN) 技术 的 目的 。 

这 些 策 略 必须 以 过 证 操作 的 方式 表达 ， 而 这 些 操作 由 在 不 同 层 操作 的 过 滤 进 程 执行 ， 

IP 数 据 包 过 滤 : 这 是 一 个 检查 单个 IP 数 据 包 的 过 滤 进 程 , 它 会 根据 源 地 址 和 目的 地 址 进行 决策 。 
它 也 会 检查 IP 数 据 包 的 服务 类 型 域 ， 并 根据 服务 类 型 解释 数据 包 的 内 容 。 例 如 ， 它 可 以 根据 目的 
端 日 号 过 滤 TCP 数 据 包 ， 因 为 服务 通常 位 于 大 众 熟 知 的 端口 上 ， 从 而 可 以 根据 请 求 的 服务 过 滤 数 据 
包 。 例如， 很 多 站 点 禁止 外 部 客户 使 用 NFS 服 务 器 。 

从 性 能 方面 考虑 IP 过 滤 通 常 由 路 由 器 的 操作 系统 内 核 中 的 进程 执行 。 如 果 使 用 多 个 防火 墙 ， 第 一 
个 防火 墙 可 能 标识 某 些 数据 包 以 便 后 面 的 防火 墙 做 更 彻底 的 检查 ， 则 时 让 “干净 ”的 数据 包 继续 发 送 ， 
也 有 可 能 基于 IP 数 据 包 的 顺序 进行 过 滤 ， 例 如 ， 在 执行 登录 命令 前 ， 禁 止 对 FTP 服 务 器 进行 访问 。 

TCP 网 关 : TCP 网 关 进 程 检查 所 有 的 TCP 连 接 请 求 以 及 数据 片 的 传输 。 安 装 了 TCP 网 关 进 程 后 ， 
可 控制 TCP 连 接 的 创建 ， 检 查 TCP 数 据 片 的 正确 性 (一 些 服务 拒绝 攻击 用 残缺 的 TCP 数 据 片 来 破坏 
客户 的 操作 系统 )。 在 需要 时 ， 它 们 可 以 被 路 由 到 应 用 层 网 关 进 行内 容 检查 。 

应 用 层 网 关 : 应 用 层 网 关 进 程 作为 应 用 进程 的 代理 。 例 如 ， 用 户 希 望 有 这 样 的 策略 ， 允 许 特 
定 内 部 用 户 的 Telnet 连 接 创建 到 特定 外 部 主机 。 当 一 个 用 户 在 本 地 运行 Telnet 程 序 时 ， 程 序 试图 和 
远程 主机 建立 一 个 TCP 连 接 ， 该 请 求 被 TCP 网 关 截 获 。TCP 网 关 启 动 一 个 Telnet 代 理 进程 ， 原 有 的 
TCP 连 接 被 路 由 到 该 进程 。 如 果 代 理 通过 了 Telent 操 作 (用 户 被 授权 使 用 所 请 求 的 主机 )， 那 么 它 
会 建立 另 一 个 通 向 所 请 求 的 主机 的 连接 ， 并 由 它 中 转 所 有 来 往 的 TCP 数 据 包 。 一 个 类 似 的 代理 进程 
将 代表 每 个 Telnet 客 户 而 运行 ， 而 类 似 的 代理 可 能 被 FTP 和 其 他 服务 所 采用 。 

一 个 防火 墙 通常 由 工作 在 不 同 协议 层 的 多 个 进程 组 成 。 考 虑 到 性 能 和 容错 ， 通 常 在 防火 墙 中 
使 用 一 台 以 上 的 计算 机 。 在 下 面 描 述 的 并 由 图 3-21 说 明 的 所 有 配置 中 ， 我 们 给 出 了 一 个 不 受 保护 的 
Web 服 务 器 和 FTP 服 务 器 。 它 只 包含 一 些 已 发 布 的 信息 ， 这 些 信息 对 公共 访问 不 加 防范 ， 而 服务 器 
软件 必须 确保 只 能 由 授权 的 内 部 用 户 修 改 。 

IP 数 据 包 过 滤 通 常 由 路 由 器 执行 ， 路 由 器 是 一 台 至 少 有 两 个 位 于 不 同 IP 网 络 的 网 络 地 址 的 计算 
机 。 路 由 器 运行 一 个 RIP 进 程 ， 一 个 IP 数 据 包 过 滤 进 程 以 及 个 数 尽 可 能 少 的 其 他 进程 。 路 由 器 /过 滤 
器 仅 运 行 可 信 的 软件 ， 其 运行 方式 要 保证 过 滤 策 略 的 执行 。 这 涉及 不 能 运行 特洛伊 木马 进程 ， 以 
及 路 由 器 和 过 滤器 软件 不 被 修改 或 破坏 。 图 3-21a 显 示 了 仅 依 赖 于 IP 过 滤 并 只 使 用 了 一 个 路 由 器 的 
简单 的 防火 墙 配 置 ， 图 3-10 中 的 网 络 配置 包含 两 个 作为 此 类 防火 墙 的 路 由 器 /过 滤器 。 该 配置 中 有 
两 个 路 由 器 /过 滤器 ， 以 确保 性 能 和 可 靠 性 。 它 们 遵循 同样 的 过 滤 策 略 ， 而 第 二 个 没有 增加 系统 的 
安全 性 。 

当 需 要 TCP 和 应 用 层 网 关 进 程 时 ， 这 些 进程 通常 会 运行 在 单独 的 计算 机 上 ， 该 计算 机 称 为 堡 全 
(这 个 术语 源 于 城堡 的 构筑 ， 城 堡 有 一 个 突出 的 腔 望 塔 用 来 保护 城堡 )。 堡 双 计 算 机 是 一 台 位 于 企 
业内 部 网 中 由 IP 路 由 器 /过 滤器 保护 的 主机 ， 它 运行 TCP 和 应 用 层 网 关 (参见 图 3-21b) 。 与 路 由 器 / 
过 滤器 类 似 ， 堡 垒 只 运行 可 信和 的 软件 。 在 一 个 足够 安全 的 企业 内 部 网 内 ， 代 理 必须 用 于 访问 所 有 
的 外 部 服务 。 读 者 可 能 已 经 对 用 于 Web 访 问 的 代理 很 熟悉 了， 它们 都 是 防火 墙 代理 的 应 用 实例 ， 
并 且 通 常 和 Web 缓 存 服务 器 ( 见 第 2 章 的 描述 ) 以 某 种 方式 集成 构建 。 这 些 代理 以 及 其 他 代理 可 能 


be 
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需要 大 量 的 存储 和 处 理 资源 。 

应 用 以 串联 方式 部 署 的 两 台 路 由 器 /过 证 器 以 及 堡垒 和 位 于 与 路 由 器 /过 滤器 相 链 接 的 单独 子 网 
内 的 公共 服务 器 可 以 提高 安全 性 能 ( 见 图 3-21c) ， 这 种 配置 在 安全 方面 有 以 下 优势 : 

*。 如果 堡垒 策略 严格 的 话 ， 企 业内 部 网 内 主机 的 IP 地 址 根本 不 需要 对 外 界 公 开 ， 企 业内 部 网 计 

算 机 也 无 需 知道 外 部 地 址 ， 因 为 所 有 的 外 部 通信 都 要 通过 堡 圣 内 的 代理 进程 完成 ， 而 代理 进 

程 可 以 访问 两 端的 计算 机 。 

* 如 果 第 一 个 路 由 器 /过 滤器 被 攻破 ， 那 么 第 二 个 路 由 器 /过 滤器 (由 于 原本 外 部 不 可 见 而 不 易 

受 攻击 ) 会 继续 承担 挑选 和 拒绝 不 可 接收 的 IP 数 据 包 的 责任 。 

虚拟 私 网 通过 使 用 IP 层 的 密码 保护 安全 通道 ， 虚 拟 私 网 (VPN) 将 防火 墙 保护 的 界限 延伸 到 
本 地 企业 内 部 网 之 外 。 在 3.4.4 节 中 ， 我 们 概述 了 使 用 IPSec 隧道 技术 对 IPv6 和 IPv4 进 行 的 耻 安 全 扩 
展 [Thayer 1998]， 这 些 都 是 实现 VPN 的 基础 。VPN 可 用 于 外 部 个 人 用 户 ， 或 者 在 使 用 公共 因特网 
链接 的 位 于 不 同 站 点 的 企业 内 部 网 之 间 实 现 安全 连接 。 

例如 ， 一 个 员工 需要 通过 iSP 连 接 到 组 织 的 企业 内 部 网 。 一 旦 连接 成 功 ， 他 就 应 该 拥有 和 防火 
墙 内 部 用 户 同样 的 权利 。 若 本 地 主机 实现 了 JP 安全 ， 则 上 面 要 求 可 以 完成 。 本 地 主机 保存 了 与 防 
火 墙 共享 的 一 个 或 多 个 密 钥 ， 这 些 密 钥 用 来 在 连接 时 建立 安全 通道 。 安 全 通道 机 制 将 在 第 7 章 中 详 
细 介 绍 。 


3.5 实例 研究 ， 以 太 网 、WiFi、 蓝 牙 和 ATM 


到 目前 为 止 ， 我 们 已 经 讨论 了 有 关 构 造 计算 机 网 络 的 原理 ， 描 述 了 因特网 的 “虚拟 网 络 层 ” 
IP。 在 结束 本 章 前 ， 我 们 将 描述 三 种 实际 网 络 的 原理 与 实现 。 

在 20 世 纪 80 年 代 初 ， 美 国电 子 与 电气 工程 师 协会 (IEEE) 成 立 了 一 个 委员 会 来 制订 局 域 网 的 
一 系列 标准 (802 委 员 会 [IEEE 1990]) ， 它 的 分 会 制订 了 一 系列 已 成 为 LAN 关 键 标准 的 规约 。 在 大 
多 数 情况 下 ， 这 些 标准 基于 20 世 纪 70 年 代 由 研究 而 来 的 已 有 工业 标准 。 相 关 的 分 会 以 及 迄今 发 布 
的 标准 如 图 3-22 所 示 。 


IEEE No， 名字 


802.3 ”以 太 网 CSMA/CD 网 络 (以 太 网 ) [IEEE 1985al 
802.4 令 牌 总 线 网 : [IEEE 1985b] 
802.5 令 牌 环 网 IIEEE 1985c] 


802.6 城 域 网 HEEE 1994] 
802.11 WiFi 无 线 局 域 网 [IEEE 1999] 
802.15.1 蓝 政 无 线 个 域 网 [IEEE 2002] 
802.15.4 ZigBee 无 线 传感器 网 络 [IEEE 2003] 
802.16 WIiMAX 无 线 城 域 网 [IEEE 2004a] 





图 3-22 IEEE 802 网 络 标准 


这 些 标 准 在 性 能 、 有 效 性 、 可 靠 性 和 成 本 上 有 所 不 同 ， 但 它们 都 提供 了 在 中 短 距 离 上 相对 较 
高 的 网 络 带 宽 。IEEE 802.3 以 太 网 标准 极 大 地 赢得 了 有 线 LAN 市 场 。 作 为 有 线 LAN 的 代表 技术 ， 
我 们 将 在 3.5.1 节 中 描述 它 。 尽 管 以 太 网 实现 有 多 种 可 用 带宽 ， 但 它们 的 操作 原理 是 相同 的 。 

IEEE 802.5 令 牌 环 网 标准 在 20 世 纪 90 年 代 是 以 太 网 的 一 个 重要 竞争 者 ， 它 比 以 太 网 更 有 效 并 能 
保证 带宽 。 但 它 现在 已 经 从 市 场 上 消失 了 。 如 果 读 者 对 这 种 LAN 技 术 感 兴趣 ， 可 以 在 www.cdk4.net/ 
networking 找 到 它 的 简要 描述 。 以 太 网 交换 机 的 广泛 使 用 (与 集线器 相对 ) 使 得 以 大 网 能 以 提供 带 
宽 和 延迟 保证 (进一步 的 讨论 见 3.5.1 节 中 “用 于 实时 应 用 和 质量 保证 至 关 重要 的 应 用 的 以 太 网 ”) 
的 方式 被 配置 ， 这 是 它 取代 令 牌 环 网 技术 的 一 个 理由 。 





网 络 而 网 奈 和 过 了 


IEEE 802.4 令 牌 总 线 标准 是 为 具有 实时 需求 的 工业 应 用 而 开发 的 ， 并 应 用 于 该 领域 。IEEE 
802.6 城 域 网 标准 覆盖 高 达 50 公 里 的 距离 ， 并 用 于 跨 城 镇 的 网 络 。 

IEEE 802.11 无 线 LAN 标 准 的 出 现 稍 晚 一 些 ， 但 由 于 许多 制造 商 生产 的 WiFi 产 品 以 及 它 被 安装 
到 大 量 移动 设备 和 手持 计算 设备 上 ， 它 目前 已 经 在 市 场 上 占据 了 主要 的 位 置 。IEEE 802.11 标 准 支 
持 上 共有 简单 的 无 线 发 送 器 /接收 器 设备 之 间 的 通信 ， 设 备 间 的 距离 在 150 米 之 内 ， 速 度 可 高 达 
54Mbps。 我 们 在 3.5.2 节 描述 它 的 操作 原理 。IEEE 802.11 网 络 的 详情 可 以 在 Crow 等 [1997] 以 及 
Kurose 和 Ross[2000] 中 找到 。 

IEEE 802.15.1 无 线 PAN 标 准 (蓝牙 ) 基于 1999 年 由 爱立信 公司 开发 的 技术 ， 该 技术 可 在 不 同 
设备 (例如 PDA、 移 动 电话 和 耳机 ) 之 间 传 输 低 带 宽 的 数字 声音 和 数据 ， 并 在 2002 年 标准 化 成 
IEEE 802.15.1。3.5.3 节 将 详细 介绍 蓝牙 。 

IEEE 802.15.4 (ZigBee) 是 另 一 个 WPAN 标 准 ， 它 用 于 为 家 中 极 低 带宽 低能 量 设备 (例如 远 
程控 制 、 防 盗 报警 和 加 热 系统 传感器 ) 和 无 处 不 在 设备 (例如 Active badge、 标 签 读 取 器 ) 提供 数 
据 通 信 。 这 样 的 网 络 称 为 无 线 传感器 网 络 ， 它 们 的 应 用 和 通信 特征 见 第 16 章 。 

IEEE 802.16 无 线 MAN 标 准 (商用 名 称 为 WiMAX) 在 2004 ~ 2005 年 被 批准 。IEEE 802.16 标 准 
作为 家 庭 和 办 公 室 的 “最 后 一 公里 ”连接 的 电缆 和 DSL 连 接 的 替代 品 。 该 标准 的 一 个 变 体 意 在 替 
代 802.11 WiFi 网 络 成 为 室内 外 公共 区 域 中 笔记 本 电脑 和 移动 设备 之 间 的 主要 连接 技术 。 

20 世 纪 80 年 代 末 到 90 年 代 初 ，ATM 技 术 从 电信 和 计算 机 界 的 研究 和 标准 化 工作 中 产生 
[CCITT1990]。 它 的 目标 是 提供 适合 电话 、 数 据 以 及 多 媒体 (高 品质 语音 与 视频 ) 应 用 的 高 带宽 的 
广 域 数字 网 络 技术 。 尽 管 它 被 接受 的 过 程 比 预期 缓 惕 ， 但 ATM 现 在 是 超 高 速 广域网 的 主导 技术 。 
它 在 某 些 地 方 的 LAN 应 用 中 替代 了 以 太 网 ， 但 在 LAN 市 场 上 不 是 太 成 功 ， 因 为 100Mbps 和 
1000Mbps 以 太 网 通过 低 得 多 的 价格 与 之 竞争 。 我 们 将 在 3.5.4 节 中 概述 ATM 的 操作 原理 ，ATM 的 
详细 情况 以 及 其 他 高 速 网 络 技术 可 以 参阅 Tanenbaum[2003] 和 Stallings[1998a] 的 著作 。 


3.5.1 以 太 网 


以 太 网 是 1973 年 [Metcalfe and Boggs1976; Shoch et al. 1982; 1985] 在 Xerox Palo Alto 研 究 中心 
作为 个 人 工作 站 和 分 布 式 系统 研究 计划 的 一 部 分 开发 出 来 的 。 该 实验 以 太 网 是 第 一 个 高 速 局 域 网 ， 
展示 了 在 某 个 地 点 链接 计算 机 ， 并 使 其 以 低 错误 率 、 无 交换 延迟 的 高 速 传输 速率 互相 通信 的 高 速 
局 域 网 的 可 行 性 和 可 用 性 。 最 初 的 以 太 网 原型 以 3Mbps 的 速度 运行 ， 现 在 以 太 网 系统 的 可 用 带宽 已 
经 扩展 到 10Mbps ~ 1000Mbps。 

我 们 将 描述 在 IEEE 802.3 标 准 [IEEE 1985a] 中 定义 的 10Mbps 以 太 网 的 操作 原理 。 它 是 第 一 个 广 
泛 部 署 的 局 域 网 技术 。100Mbps 的 变 体 是 现在 广泛 使 用 的 一 种 以 太 网 ， 它 的 操作 原理 与 0Mbps 类 
似 。 本 节 最 后 将 总 结 目前 以 太 网 传输 技术 更 重要 的 变 体 以 及 可 用 的 带宽 。 所 有 以 太 网 变 体 的 综合 
描述 ， 请 参见 Spurgeon[2000]。 

单个 以 太 网 是 一 个 简单 的 或 有 分 支 的 类 似 总 线 的 连接 ， 它 使 用 的 传输 介质 由 通过 集线器 或 中 
继 器 连接 的 一 个 或 多 个 连续 的 电缆 段 组 成 。 集 线 器 和 中 继 器 是 连接 线路 的 设备 ， 它 使 得 同样 的 信 
号 能 穿 过 所 有 线路 。 几 个 以 太 网 可 在 以 太 网 网 络 协议 层 通 过 以 太 网 交换 机 或 网 桥 连接 。 交 换 机 和 
网 桥 在 以 太 网 帧 层 操作 ， 将 地 址 为 邻接 以 太 网 的 帧 转发 过 去 。 对 于 IP 这 样 的 高 层 协 议 ， 连 接 起 来 
的 以 太 网 可 看 作 一 个 网 络 (如 在 图 3-10 中 ，IP 子 网 138.37.88 和 138.37.94 都 由 几 个 以 太 网 组 成 ， 它 
们 由 标记 为 Eswitch 的 交换 机 连接 )。 特 别 是 ARP 协 议 (参见 3.4.2 节 )， 它 可 以 跨越 相互 连接 的 一 组 
以 太 网 来 解析 IP 地 址 ， 每 个 ARP 请 求 都 广播 到 子 网 中 所 有 连接 的 网 络 上 。 

以 太 网 的 操作 方法 定义 为 “具有 冲突 检测 的 载波 侦 听 多 路 访问 ”( 简 称 CSMA/CD)， 它 们 属于 
竞争 总 线 类 网 络 。 竞 争 总 线 使 用 一 种 传输 介质 连接 所 有 的 主机 。 管 理 介质 访问 的 协议 称 为 介质 访 
问 控制 (Medium Access Control, MAC) 协议 。 由 于 单一 链 路 连接 所 有 主机 ， 所 以 MAC 协 议 将 数 
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据 链 路 层 协议 (负责 在 通信 和 链 路 上 传输 数据 包 ) 和 网 络 层 协议 (负责 将 数据 包 传 输 到 主机 ) 的 功 
能 合并 到 一 个 协议 层 中 。 

数据 包 广播 ”CSMA/CD 网 络 中 的 通信 方法 是 在 传输 介质 上 广播 数据 包 。 所 有 工作 站 不 断 地 
“监听 ”介质 上 传输 的 数据 包 的 目的 地 是 否 是 自己 。 任 何 想 发 送 消息 的 工作 站 会 广播 一 个 或 多 个 数 
据 包 (在 以 太 网 规约 中 称 为 帧 ) 到 介质 上 。 每 个 数据 包 包含 目的 工作 站 地 址 、 发 送 工作 站 地 址 和 
表示 要 传输 消息 的 变 长 比特 序列 。 数 据 传输 以 10Mbps 的 速度 (在 100Mbps 和 1000Mbps 以 太 网 上 以 
更 高 速度 ) 进行 ， 数据 包 长 度 为 4B 到 1518B。 因 此 ， 在 10Mbps 以 太 网 上 传输 一 个 数据 包 的 时 间 是 
50 ~ 1200us， 具 体 时 间 取 决 于 数据 包 的 长 度 。 尽 管 除了 需要 限制 冲突 产生 的 延迟 外 ， 没 有 任何 其 
他 技术 原因 需要 制订 固定 的 界限 ， 但 在 IEEE 标 准 中 ，MTU 还 是 被 定义 为 1518B。 

目的 工作 站 的 地 址 通常 指 一 个 网 络 接口 。 每 个 工作 站 的 控制 器 硬件 接收 每 个 数据 包 的 一 个 副 
本 。 它 比较 每 个 数据 包 的 目的 地 址 和 本 地 的 硬 编码 地 址 ， 忽 略 地 址 为 其 他 工作 站 的 数据 包 ， 并 将 
地 址 匹配 的 数据 包 接收 到 本 地 主机 。 目 的 地 址 也 可 以 指定 一 个 广播 或 者 组 播 地 址 。 普 通 地 址 通过 
最 高 位 与 广播 地 址 和 组 播 地 址 区 分 〈 前 者 为 0， 后 者 为 1) 。 全 为 1 的 地 址 被 保留 为 广播 地 址 ， 在 一 
条 消息 被 网 络 上 所 有 工作 站 接收 时 使 用 。 这 可 用 于 实现 ARP IP 地 址 解析 协议 。 任 何 收 到 具有 广播 
地 址 的 数据 包 的 工作 站 将 把 数据 包 传 送 到 本 地 主机 。 组 播 地 址 指定 了 一 种 受 限 的 广播 方式 ， 一 
数据 包 由 一 组 其 网 络 接口 被 配置 为 可 接收 具有 组 播 地 址 的 数据 包 的 工作 站 接收 ， 但 不 是 所 有 的 以 
太 网 接口 实现 都 可 以 识别 组 播 地 址 。 

以 太 网 网 络 协议 〈 在 一 对 主机 之 间 传 输 以 太 网 数据 包 ) 由 以 太 网 硬件 接口 实现 ， 而 传输 层 以 
及 传输 层 之 上 的 协议 需要 协议 软件 。 

以 太 网 数据 包 格 式 以太 网 工作 站 上 传输 的 数据 包 (或 更 准确 地 说 是 帧 ) 具有 以 下 格式 ; 


SET 





前 同步 符 源 要 传输 的 数据 














除了 已 提 到 目的 地 址 和 源 地 址 外 ， 帧 还 包括 一 个 8 字 节 的 固定 前 级 、 一 个 长 度 域 、 一 个 数据 域 
和 一 个 校 验 和 。 前 绎 用 于 硬件 定时 ， 包 含 7 字 节 的 前 同步 符 ， 每 个 前 同步 符 包括 位 模式 10101010 组 
成 ， 其 后 是 一 字 节 的 开始 帧 分 界 符 (在 图 中 是 S) ， 分 界 符 的 模式 为 10101011。 

尽管 标准 规定 单个 以 太 网 中 的 工作 站 不 能 超过 1024 个 ， 但 以 太 网 的 地 址 占 了 6 字 节 ， 可 提供 24 
个 不 同 的 地 址 。 这 使 得 每 个 以 太 网 硬件 接口 制造 商 可 以 给 硬件 接口 分 配 一 个 唯一 的 地 址 ， 以 保证 
所 有 互 连 的 以 太 网 中 的 工作 站 都 有 唯一 的 地 址 。 美 国电 气 和 电子 工程 师 协会 (IEEE) 作为 以 太 网 
地 址 分 配 的 负责 方 ， 将 48 比 特地 址 的 不 同 范围 分 配给 以 太 网 硬件 接口 制造 商 。 这 些 地 址 被 称 为 
MAC 地 址 ， 因 为 它们 用 于 介质 访问 控制 层 。 事 实 上 ， 以 这 种 方式 分 配 的 MAC 地 址 已 经 被 IEEE 802 
家 族 中 其 他 网 络 类 型 (例如 802.11 (WiFi) 和 802.15.1 (蓝牙 )) 采用 为 唯一 地 址 。 

数据 域 包 含 要 传输 的 消息 的 全 部 或 一 部 分 (如 果 消 息 长 度 超过 1500 字 节 )。 数 据 域 的 下 限 为 46 
字 节 ， 这 可 以 保证 数据 包 最 小 长 度 为 64 字 节 ， 设 置 下 限 是 必要 的 ， 这 可 以 保证 网 络 上 所 有 工作 站 
的 冲突 都 能 检测 到 ， 下 文 对 此 做 了 解释 。 

帧 校 验 序列 是 一 个 校 验 和 ， 它 由 发 送 者 产生 并 插入 数据 包 中 ， 由 接收 者 用 于 验证 数据 包 。 校 
验 和 不 正确 的 数据 包 由 接收 工作 站 的 数据 链 路 层 丢 弃 。 这 是 端 到 端 争 论 的 应 用 的 另 一 个 例子 ， 即 
为 了 保证 消息 的 传输 ， 必 须 使 用 像 TCP 这 样 的 传输 县 协议 ， 它 会 对 每 个 接收 到 的 数据 包 发 出 确认 信 
息 并 重 传 未 被 确认 的 数据 包 。 在 局 域 网 中 ， 数 据 出 错 的 情况 非常 少 ， 所 以 当 需 要 保证 传输 时 ， 使 
用 这 种 错误 恢复 方法 能 获得 令 人 满意 的 效果 ， 并 且 当 不 需要 保证 数据 传输 时 ， 可 以 采用 像 UDP 这 
样 开 销 比较 小 的 协议 。 

数据 包 冲 突 ”即使 数据 包 的 传输 时 间 相 当 短 ， 也 有 可 能 出 现 网 络 上 两 个 工作 站 同时 传输 消息 的 
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情况 。 如 果 一 个 工作 站 试图 传输 一 个 数据 包 ， 而 没有 检查 传输 介质 是 否 被 另 一 个 工作 站 使 用 ， 就 
会 产生 冲突 。 

以 太 网 有 三 种 机 制 来 处 理 这 种 可 能 性 。 第 一 种 机 制 称 为 载波 货 听 。 每 个 工作 站 的 接口 硬件 监 
昕 在 介质 上 出 现 的 信号 ( 称 为 载波 ， 类 似 于 无 线 电 广播 )。 当 一 个 工作 站 和 欲 传输 一 个 数据 包 时 ， 它 
会 等 到 介质 上 没有 信号 出 现时 才 开 始 传输 。 

遗憾 的 是 ， 载 波 侦 听 不 能 阻止 所 有 的 冲突 。 冲 突 存在 的 原因 是 ， 一 个 在 介质 的 某 个 点 插入 的 
壤 号 到 达 所 有 的 点 需要 有 限时 间 r (信号 以 电波 速度 传播 ， 大 约 每 秒 2 x 10 m) 。 假 设 两 个 工作 站 A 
和 B 几 乎 同时 准备 传输 。 如 果 A 首 先 开 始 传输 ， 在 A 开 始 传输 之 后 的 ! < 填 间 内 ，B 检 查 介质 ， 未 发 
现 有 信号 ， 于 是 B 开 始 传 输 ， 但 它 干扰 了 A 的 传输 ， 最 后 A 和 B 的 数据 包 都 会 被 干扰 破坏 。 

从 这 种 干扰 中 恢复 的 技术 称 为 冲突 检测 。 当 一 个 工作 站 通过 其 硬件 输出 端口 传送 一 个 数据 包 
时 ， 它 也 监听 它 的 输入 端口 ， 并 比较 两 个 信号 。 如 果 两 者 不 同 ， 则 说 明 发 生 了 冲突 。 此 时 工作 站 
停止 传输 并 产生 阻塞 信号 ， 通 知 所 有 工作 站 产生 了 一 个 冲突 。 我 们 已 经 注意 到 ， 最 小 数据 包 长 度 
可 以 确保 检测 到 冲突 。 如 果 两 个 工作 站 几乎 同时 从 网 络 的 另 一 端 传输 ， 它 们 在 2zr 秒 之 内 不 会 意识 
到 冲突 (因为 当 第 个 发 送 者 接收 到 第 二 个 信号 时 ， 必 须 仍 然 继 续 发 送 ) 。 如 果 它 们 发 送 的 数据 包 
的 广播 时 间 小 于 r， 就 注意 不 到 冲突 ， 因 为 每 个 发 送 工作 站 直到 传输 完 自 己 的 数据 包 才 会 看 到 别 的 
数据 包 ， 而 中 间 的 工作 站 将 因为 同时 接收 两 个 数据 包 而 产生 数据 崩溃 。 

阻塞 信号 发 出 之 后 ， 所 有 传输 工作 站 和 监听 工作 站 取消 当前 的 数据 包 。 传 输 工作 站 不 得 不 试 
图 重新 传输 它们 的 数据 包 。 这 会 产生 更 大 的 困难 。 如 果 发 生 冲 突 的 工作 站 都 试图 在 阻塞 信号 之 后 
立即 重 传 它们 的 数据 包 ， 就 可 能 发 生 另 一 个 冲突 。 为 避免 这 种 情况 ， 可 以 使 用 称 为 后 退 的 技术 。 
发 生 冲 突 的 每 个 工作 站 选择 在 传输 之 前 等 待 一 段 时 间 nt。n 是 一 个 随机 整数 ， 由 每 个 工作 站 分 别 选 
取 ， 并 小 于 在 网 络 软件 中 定义 的 常数 L。 如 果 产 生 进一步 的 冲突 ， 将 L 的 值 加 倍 ， 必 要 的 话 可 将 整 
个 过 程 重复 10 次 。 

最 后 ， 接 收工 作 站 的 接口 硬件 计算 校 验 序列 ， 并 将 之 与 数据 包 中 传送 的 校 验 和 相 比 。 使 用 这 
些 技术 ， 连 接 到 以 太 网 的 工作 站 便 可 以 在 无 任何 集中 控制 或 同步 的 情况 下 管理 介质 的 使 用 。 

以 太 网 的 效率 ”以 太 网 的 效率 定义 为 成 功 传送 的 数据 包 的 个 数 与 无 冲突 情况 下 理论 上 能 传输 
的 数据 包 的 最 大 值 之 间 的 比率 。 它 受 r 值 的 影响 ， 因 为 数据 包 传 送 后 的 2r 秒 间隔 是 冲突 的 “机 会 窗 
口 ”， 即 在 数据 包 开始 传输 2r 秒 后 不 会 有 冲突 发 生 。 网 络 上 工作 站 的 数目 以 及 它们 的 活动 性 也 会 影 
响 效 率 。 

对 于 长 度 为 km 的 电缆 ，t 的 值 小 于 5ms， 因 此 冲突 概率 很 小 ， 足 以 确保 传输 的 高 效 性 。 尽 管 
当 通 道 利用 率 大 于 50% 时 ， 争 夺 通 道 造成 的 延迟 足以 令 人 重视 ， 但 以 太 网 仍 可 以 获得 80% ~95% 的 
通道 利用 率 。 因 为 负载 是 变化 的 ， 所 以 不 可 能 保证 在 一 段 固定 的 时 间 内 传递 给 定 信息 ， 原 因 是 网 
络 可 能 在 准备 传输 消息 时 变 成 满 负荷 运行 。 但 在 给 定 的 延迟 内 传递 消息 的 概率 等 同 或 好 于 其 他 网 
络 技 术 。 

Xerox PARC 的 Shoch 与 Hupp[1980] 报 告 的 关于 以 太 网 性 能 的 实际 测量 数据 确认 了 上 述 分 析 。 
在 实际 中 ， 分 布 式 系统 中 使 用 的 以 太 网 负载 变化 很 大 。 很 多 网 络 主要 用 于 异步 客户 一 服务 器 交互 ， 
在 大 多 数 情况 下 ， 网 络 在 无 工作 站 等 待 传输 、 通 道 利 用 率 接近 1 的 状况 下 运行 。 支 持 大 量 用 户 进行 
批量 数据 访问 的 网 络 会 承受 更 多 的 负载 ， 对 于 那些 携带 多 媒体 流 的 网 络 ， 如 果 有 有 几 个 流 同时 传输 
的 话 ， 则 有 可 能 被 淹没 。 

物理 实现 上 面 的 叙述 定义 了 所 有 以 太 网 的 MAC 层 协议 。 市 场 对 以 太 网 的 广泛 应 用 ， 使 得 我 
们 可 以 获得 执行 以 太 网 算法 的 低 成 本 的 控制 器 硬件 ， 它 已 成 为 很 多 桌面 计算 机 与 消费 类 计算 机 的 
标准 部 件 。 

有 很 多 不 同 的 以 太 网 物理 实现 ， 它 们 是 基于 不 同 的 性 能 /成 本 权衡 提出 的 ， 也 利用 了 不 断 增长 
的 硬件 性 能 。 不 同 的 实现 源 于 使 用 了 不 同 的 传输 介质 ， 包 括 同 轴 电 绕 、 双 绞 线 (与 电话 线 相似 ) 
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以 及 光纤 ， 它 们 具有 不 同 的 传输 范围 ， 而 使 用 更 高 的 信号 速度 ， 会 带 来 更 高 的 系统 带宽 与 更 短 的 
传输 范围 。IEEE 采 纳 了 不 同 的 物理 层 实 现 标准 ， 并 有 一 个 区 分 它们 的 命名 方案 。 可 使 用 10Base5 与 
100BaseT 这 样 的 名 字 ， 它 们 具有 如 下 形式 : 
<R><B><L> 
其 中 : R= 以 Mbps 计 的 数据 率 
B= 媒体 信号 类 型 (基带 或 宽带 ) 
工 = 以 米 /100 计 的 最 大 数据 片 长 度 或 者 T( 双 绞 线 ) 

我 们 将 当前 可 用 的 标准 配置 以 及 电缆 类 型 的 带宽 与 最 大 范围 列 在 图 3-23 中 。 以 7 结尾 的 配置 由 
UTP 电 缆 ( 非 屏蔽 双 绞 线 ， 即 电话 线 ) 实现 ， 它 被 组 织 成 集线器 层次 结构 ， 而 计算 机 作为 树 的 叶 
子 。 在 这 种 情况 下 ， 表 中 给 出 的 数据 片 长 度 是 计算 机 到 集线器 的 最 大 允许 长 度 的 两 倍 。 

10Base5 10BaseT 100BaseT 1000BaseT 


数据 率 10Mbps 10Mbps 100Mbps 1000Mbps 
最 大 数据 片 长 度 


双 绞 线 (UTP) 100m 100m 100m 25m 


同 轴 电缆 (STP) 500m 500m 500m 25m 
多 模 光纤 2000m 2000m 500m 500m 
单 模 光 纤 25000m 25000m 20000m 2000m 











图 3-23 ”以太 网 范围 和 速度 


用 于 实时 应 用 和 质量 保证 至 关 重 要 的 应 用 的 以 太 网 “以 太 网 MAC 协 议 因 为 它 缺 乏 传递 延迟 的 
保障 ， 所 以 不 适合 实时 应 用 或 需要 质量 保证 的 应 用 ， 这 一 点 经 常 被 讨论 。 但 应 该 注意 到 ， 现 在 大 
多 数 以 太 网 的 安装 都 基于 MAC 层 交换 机 的 使 用 (如 图 3-10 所 示 ， 有 关 的 描述 见 3.3.7 节 ) ， 而 不 是 以 
前 的 集线器 或 带 有 堵 头 的 电缆 。 交 换 机 的 使 用 使 得 每 个 主机 对 应 一 个 单独 的 网 段 ， 除 了 到 达 这 个 
主机 的 包 之 外 设 有 其 他 包 传 递 给 它 。 因 此 ， 如 果 到 该 主机 的 流量 来 自 一 个 源 ， 那 么 就 没有 介质 冲 
突 一 一 有 效 性 是 100%， 延 迟 是 常量 。 竞 争 的 可 能 性 仅 出 现在 交换 机 上 ， 这 些 能 够 并 且 经 常用 于 并 
发 地 处 理 包 。 因 此 ， 一 个 轻 负 载 的 基于 交换 机 的 以 太 网 安装 几乎 100% 有 效 ， 能 延迟 通常 是 一 个 小 
常量 ， 所 以 它们 经 常 被 成 功 地 用 于 关键 性 应 用 。 

对 以 太 网 风格 的 MAC 协 议 的 实时 支持 可 见 [Rether, Pradhan and Chiueh 1998] 的 描述 ， 类 似 的 
方案 在 开源 的 Linux 扩 展 [RTnet] 中 实现 。 这 些 软 件 方 法 通过 实现 一 个 应 用 层 协作 协议 为 介质 的 使 用 
保留 了 时 间 槽 ， 从 而 解决 了 竞争 问题 ， 它 依赖 连接 到 一 个 网 段 的 所 有 主机 的 协作 。 


3.5.2 IEEE 802.11 无 线 LAN 


本 节 将 总 结 无 线 LAN 技 术 中 必须 解决 的 无 线 网 络 的 特殊 特征 ， 同 时 解释 卫 EE 802.11 是 如 何 处 
理 这 些 特征 的 。IEEE 802.11 (WiFi) 标准 扩展 了 以 太 网 (IEEE 802.3) 技术 采用 的 载波 侦 听 多 路 
复 用 (CSMA) 原理 以 适应 无 线 通信 的 特征 。802.11 标 准 旨 在 支持 距离 在 150m 之 内 以 最 高 54Mbps 
的 速度 进行 的 计算 机 间 通 信 。 

图 3-24 是 包含 无 线 LAN 的 企业 内 部 网 的 一 部 分 。 几 个 移动 无 线 设备 通过 基站 和 企业 内 部 网 的 
其 他 设备 通信 ， 这 里 基站 是 有 线 LAN 的 接 入 点 。 通 过 接 人 点 与 传统 LAN 连 接 的 无 线 网 络 称 为 基于 
基础 设施 的 无 线 网 络 。 

无 线 网 络 的 另 一 种 配置 方式 称 为 自 组 织 网 络 。 自 组 织 网 络 不 包括 接 人 点 或 基站 。 它 们 通过 同 
一 邻 域 的 无 线 接口 检测 到 彼此 的 存在 ， 然 后 在 运行 中 建立 起 网 络 。 当 同一 房间 内 的 两 个 或 者 多 个 
笔记 本 电脑 用 户 发 起 与 任何 可 用 站 点 的 连接 时 ， 就 会 形成 一 个 自 组 织 网 络 。 它 们 可 以 通过 在 某 台 
机 器 上 启动 文件 服务 器 进程 来 共享 文件 。 





图 3-24 无 线 LAN 配 置 


IEEE 802.11 网 络 在 物理 层 采 用 无 线 电 频率 信号 (利用 免 牌 照 使 用 的 2.4GHz 和 5GHz 波 段 ) 或 
者 红外 线 作为 传输 介质 。 标 准 中 的 无 线 电 版 本 在 商业 上 广 受 注 意 ， 下 面 我 们 将 介绍 它 。IEEE 
802.11b 标 准 是 第 一 个 广泛 使 用 的 派生 标准 。 它 在 2.4GHz 波 段 运行 ， 支 持 高 达 11Mbps 的 数据 通信 。 
它 从 1999 年 起 在 许多 办 公 室 、 家 庭 和 公共 场所 与 基站 一 起 被 安装 ， 使 笔记 本 电脑 和 PDA 能 访问 局 
域 网 设备 或 因特网 。IEEE 802.11g 是 对 802.11b 最 近 的 更 新 ， 它 仍 使 用 2.4GHz 波 段 但 使 用 不 同 的 信 
号 技术 从 而 获得 高 达 54Mbps 的 速度 。 最 后 ，802.11a 派 生 标 准 工 作 在 5GHz 波 段 ， 在 更 短 范围 内 带 
宽 可 达 54Mbps。 所 有 的 派生 标准 采用 不 同 的 频率 选择 或 者 跳 频 技术 ， 以 避免 外 部 干扰 以 及 独立 的 
无 线 LAN 之 间 的 相互 干扰 (后 者 我 们 不 准备 详细 讨论 )。 我 们 重点 讨论 对 CSMA/CD 机 制 做 的 修改 ， 
这 些 修改 是 802.11 的 所 有 版 本 的 MAC 层 所 需要 的 ， 并 使 得 广播 数据 传输 可 以 用 到 无 线 电 传输 中 。 

和 以 太 网 一 样 ，802.11MAC 协 议 为 所 有 的 站 点 提供 相同 的 机 会 使 用 传输 通道 ， 站 点 之 间 可 以 
直接 传输 。 但 MAC 协 议 控制 不 同 站 点 对 通道 的 使 用 。 对 以 太 网 而 言 ，MAC 层 起 到 了 数据 链 路 层 和 
网 络 层 的 作用 ， 它 负责 将 数据 包 发 送 到 网 络 的 主机 上 。 

使 用 无 线 电波 (而 非 电线 ) 作为 传输 介质 会 产生 一 些 问题 。 这 些 问 题 源 于 以 太 网 使 用 的 载波 
侦 听 和 冲突 检测 机 制 仅 在 整个 网 络 的 信号 强度 大 致 相同 时 才 有 效 这 一 事实 。 

我 们 回忆 一 下 ， 载波 侦 听 的 目的 是 确定 发 送 工作 站 和 接收 工作 站 间 的 所 有 节点 上 的 介质 是 否 
空间 ， 冲 突 检 测 的 目的 是 确定 在 接收 者 邻 域内 的 介质 是 否 空闲 ， 以 免 在 传输 时 受到 干扰 。 由 于 无 
线 LAN 操 作 的 空间 内 信号 强度 不 均匀 ， 所 以 载波 侦 听 和 冲突 检测 可 能 出 现 如 下 几 种 错误 ， 

工作 站 隐藏 : 载波 侦 听 没 能 检测 到 网 络 上 另 一 个 工作 站 正在 传输 。 图 3-24 可 以 说 明 这 一 点 ， 
掌上 电脑 D 正 在 向 基站 BE 传输 ， 由 于 图 中 所 示 的 无 线 电 屏障 ， 笔 记 本 电脑 A 可 能 发 现 不 了 D 的 信息 。 
于 是 A 开始 传输 ， 若 不 采取 手段 防止 A 传输 ， 将 在 E 点 造成 冲突 。 

信号 束 减 : 由 于 电磁 波 传输 遵循 反 平方 规则 衰减 ， 因 此 随 着 和 传输 者 距离 的 增加 ， 无 线 电信 
号 强度 迅速 衰减 。 一 个 无 线 LAN 内 的 某 个 工作 站 可 能 在 其 他 工作 站 的 范围 之 外 。 如 图 3-24 所 示 ， 
虽然 笔记 本 电脑 A 或 C 可 以 成 功 地 向 B 或 E 传 输 信 号 ， 但 A 却 可 能 检测 不 到 C 的 传输 。 信 号 衰减 使 得 
载波 侦 听 和 冲突 检测 都 失效 。 

冲突 屏蔽: 遗憾 的 是 ， 以 太 网 中 用 来 检测 冲突 的 侦 听 技术 在 无 线 电网 络 中 并 不 是 十 分 有 效 。 
因为 上 面 提 到 的 平方 衰减 规律 ， 本 地 产生 的 信号 总 是 比 其 他 地 方 产生 的 信号 强 很 多 ， 极 大 地 覆盖 
了 远程 传输 。 因 此 ， 笔 记 本 电脑 A 和 C 可 能 同时 向 BE 传送 ， 它 们 都 没有 检测 到 冲突 ， 但 E 却 只 收 到 了 
乱码 。 

尽管 如 此 ，IEEE 802.11 网 络 中 并 没有 废弃 载波 侦 听 ， 而 是 通过 在 MAC 协 议 中 加 入 时 阶 保 留 机 
制 对 载波 侦 听 机 制 进行 加 强 。 这 种 方案 称 为 具有 冲突 避免 的 载波 侦 听 多 路 复 用 (CSMA/CA)。 

在 工作 站 准备 发 送 消息 时 ， 它 侦 听 介质 。 如 果 没 有 检测 到 载波 信号 ， 它 假设 以 下 条 件 之 一 为 真 ， 

1) 介质 可 用 。 

2) 范围 之 外 的 工作 站 正在 请 求 获得 一 个 时 耻 。 
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3) 范围 之 外 的 工作 站 正在 使 用 以 前 保留 的 时 隙 。 

时 随 保留 协议 包括 在 发 送 者 和 接收 者 之 间 交 换 一 对 短 销 息 ( 帧 ) 。 首 先是 发 送 者 给 接收 者 发 一 
个 请 求 发 送 (RTS) 帧 ，RTS 消 息 指定 了 需要 的 时 隙 长 度 。 接 收 者 回复 清除 发 送 (CTS) 帧 ， 并 重 
复 时 隙 的 长 度 。 这 种 交换 的 效果 如 下 : 

。 发送 者 范围 内 的 工作 站 将 获得 RTS 帧 ， 并 记录 时 陈 长 度 。 

。 接收 者 范围 内 的 工作 站 将 获得 CTS 帧 ， 并 记录 时 隙 长 度 。 

结果 ， 发 送 者 和 接收 者 范围 内 的 所 有 工作 站 在 规定 的 时 隙 内 都 不 传输 ， 留 出 空闲 通道 给 发 送 
者 ， 使 之 能 传输 一 定 长 度 的 数据 帧 。 最 后 ， 接 收 者 对 数据 帧 的 成 功 传输 发 出 确认 信息 ， 以 帮助 处 
理 通道 的 外 部 干扰 问题 。MAC 协 议 的 时 隙 保留 特征 在 以 下 几 个 方面 有 助 于 避免 冲突 : 

。CTS 帧 有 助 于 避免 工作 站 隐 蔬 和 信号 衰减 问题 。 

。RTS 和 CTS 帧 很 短 ， 所 以 冲突 的 风险 也 很 小 。 如 果 检 测 到 冲突 或 者 RTS 没 有 得 到 CTS 回 复 ， 

则 像 以 太 网 那样 ， 使 用 一 个 随机 后 退 周期 。 

。 如 果 正 确 地 交换 了 RTS 和 CTS 帧 ， 那 么 随后 的 数据 和 确认 标 应 当 没有 冲突 ， 除 非 间歇 性 的 信 

号 衰减 导致 第 三 方 没有 接收 到 RTS 帧 或 者 CTS 帧 。 


安全 性 ”通信 的 私密 性 和 完整 性 显然 是 无 线 网 络 中 必须 关注 的 问题 。 处 于 范围 内 且 配 有 发 送 
器 /接收 器 的 任何 一 个 工作 站 都 可 能 加 入 这 个 网 络 ， 如 果 失 败 ， 它 也 可 能 窃听 其 他 工作 站 之 间 的 传 
输 。 第 一 个 试图 为 IEEE 802.11 解 决 安全 问题 的 是 WEP (有 线 等 价 私密 性 ) 。 遗 憾 的 是 ，WEP 并 没 
有 达到 它 名 字 所 隐 含 的 目标 。 它 的 安全 设计 在 几 个 方面 都 有 漏洞 ， 使 得 它 很 容易 被 破坏 。 我 们 将 
在 7.6.4 节 描述 它 的 弱点 ， 并 总 结 当前 的 改进 情况 。 


3.5.3 IEEE 802.15.1 蓝牙 无 线 PAN 


蓝牙 是 一 种 无 线 个 域 网 技术 ， 源 于 通过 无 线 连接 移动 电话 与 PDA、 笔 记 本 电脑 以 及 其 他 个 人 
设备 的 需求 。 由 L. M. Ericsson 领 导 的 移动 电话 和 计算 机 制造 商 的 一 个 特别 的 兴趣 小 组 (SIG) 为 无 
线 个 域 网 (WPAN) 开发 了 一 个 规约 ， 用 于 传输 数字 声音 流 和 数据 [Haartsen et al. 1998]。1.0 版 的 
蓝牙 标准 于 1999 年 发 布 ， 蓝 牙 这 个 名 字 出 自 一 个 海盗 王 。 然 后 ，IEEE 802.15 工 作 组 采用 它 为 
802.15.1 标 准 并 发 布 了 用 于 物理 层 和 数据 链 路 层 的 规约 [IEEE 2002]。 

蓝牙 网 络 与 另 一 个 广泛 采用 的 无 线 网 络 标准 IEEE 802.11 (WiFi) 有 本 质 区 别 ， 它 们 在 反映 
WPAN 的 不 同 应 用 需求 、 不 同 开 销 和 能 量 消耗 目标 上 有 所 不 同 。 蓝 牙 主 要 针对 非常 小 的 低 开 销 的 
设备 ，( 例 如 佩 无 线 耳 机 )， 它 从 移动 电话 接收 数字 声 频 流 ， 同 时 也 支持 计算 机 、 电 话 、PDA 和 其 
他 移动 设备 之 间 的 互 连 。 开 销 目标 是 在 手持 设备 的 开销 上 增加 5 美元 ， 能 量 目 标 是 仅 使 用 电话 或 
PDA 总 电量 的 一 小 部 分 ， 甚 至 能 用 可 穿戴 设备 (如 耳机 ) 的 少量 电池 操作 数 小 时 。 

目标 应 用 一 般 要 求 的 带宽 比 典型 无 线 LAN 应 用 更 少 ， 传 输 范 围 更 短 。 蓝 牙 很 幸运 地 与 WiFi 网 
络 、 无 绳 电话 和 许多 紧急 服务 通信 系统 都 在 2.4GHz 免 牌照 频率 带宽 上 操作 。 传 输 以 低能 量 方 式 进 
行 ， 在 所 允许 频带 的 79 个 1MHz 的 子 带宽 上 以 每 秒 1600 次 的 比率 跳跃 ， 以 减少 干扰 。 正 常 蓝牙 设备 
的 输出 功率 是 limW， 履 盖 范 围 仅 为 10m，100mW 设 备 的 覆盖 范围 约 为 100m， 适 用 于 家 庭 网 络 类 的 
应 用 。 通 过 加 入 自 适 应 范围 的 设施 ， 可 以 进一步 提高 能 量 的 有 效 性 。 自 适应 范围 的 设施 能 在 协作 
的 设备 在 附近 (由 最 初 接收 的 信号 强度 决定 ) 时 ， 将 传输 功率 调整 到 一 个 较 低 的 层次 。 

蓝牙 节点 动态 结对 ， 事 先 不 需要 有 关 知 识 。 下 面 将 给 出 节点 关联 协议 。 在 成 功 关联 后 ， 发 起 
节点 成 为 主 节 点 角色 ， 其 他 节点 是 从 节点 。 微 微 网 是 由 一 个 主 节点 和 至 多 7 个 活动 的 从 节点 组 成 的 
动态 关联 网 络 。 主 节点 控制 通信 通道 的 使 用 ， 给 每 个 从 节点 分 配 时 间 片 。 一 个 参与 多 个 微微 网 的 
节点 可 以 作为 沟通 主 节点 的 桥梁 一 一 按 这 种 方式 链接 的 多 个 微微 网 叫 散射 网 。 大 多 数 设 备 具备 作为 
主 节 点 或 从 节点 的 能 力 。 

虽然 只 有 主 节点 的 MAC 地 址 用 于 协议 中 ,但 所 有 的 蓝牙 节点 也 都 配备 一 个 全 局 唯一 的 48 位 
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MAC 地 址 ( 见 3.5.1 节 )。 当 一 个 从 节点 在 微微 网 中 被 激活 ， 那 么 就 给 它 赋予 一 个 范围 为 1~7 的 临时 
的 本 地 地 址 ， 以 减少 包头 部 的 长 度 。 除 了 7 个 激活 的 从 节点 外 ， 一 个 微微 网 可 以 包含 至 多 255 个 停 
放 节 点 ， 以 低 功率 的 模式 等 待 来 自主 节点 的 激活 信和 号。 

关联 协议 为 了 节省 能 源 ， 在 关联 前 或 最 近 没有 发 生 通 信 时 ， 设 备 将 保持 睡眠 或 备用 模式 。 在 
备用 模式 下 ， 设 备 每 隔 0.64 ~2.56s 监 听 一 次 油 活 消息 。 为 了 与 附近 已 知 的 节点 (停放 节点 ) 相关 
联 ， 发 起 节点 以 16 频 率 子 波段 ， 发 送 16 页 的 包 序 列 ， 这 个 过 程 能 重复 多 次 。 为 了 与 范围 内 未 知 节 
点 相关 联 ， 发 起 者 必须 首先 广播 查询 消息 序列 。 在 最 坏 情 况 下 ， 这 些 传输 序列 最 多 占用 5s， 从 而 
使 最 大 的 关联 时 间 约 为 7 ~ 10s。 

关联 之 后 ， 是 一 个 可 选 的 认证 交换 ， 该 交换 基于 用 户 提 供 的 或 以 前 接收 到 的 认证 令 牌 完成 ， 
以 确保 与 想 要 关联 的 节点 关联 ， 而 不 是 与 一 个 欺骗 节点 关联 。 接 着 ， 通 过 观察 从 主 节点 定时 发 送 
的 包 (即使 这 些 包 不 是 发 送 给 从 节点 的 )， 从 节点 与 主 节点 保持 同步 。 未 激活 的 从 节点 将 被 主 节点 
置 为 停放 模式 ， 将 它 在 微微 网 中 占用 的 模 释 放 供 其 他 节点 使 用 。 

如 果 网 络 需 要 支持 同步 通信 通道 ， 并 要 求 有 足够 的 服务 质量 以 进行 双向 实时 音频 的 传输 (如 
在 电话 和 用 户 的 无 线 耳机 间 的 传输 ) ， 同 时 ， 需 要 对 数据 交换 异步 通信 提供 支持 ， 那 么 网 络 的 体系 
结构 与 以 太 网 和 WiFi 网 的 尽力 而 为 多 路 访问 的 设计 不 同 。 同 步 通信 征 通过 同步 面向 连接 (SCO) 
的 链 路 实现 的 ，SCO 是 在 主 节点 和 一 个 从 节点 之 间 的 一 个 简单 的 双向 通信 协议 ， 主 节点 和 从 节点 
必须 轮流 地 发 送 同步 包 。 异 步 通信 和 是 通 过 异步 无 连接 (ACL) 链 路 实现 的 ， 这 时 ， 主 节点 周期 性 
地 向 从 节点 发 送 异 步 轮 询 包 ， 从 节点 仅 在 接收 到 轮 询 后 发 送 包 。 

蓝牙 协议 的 所 有 变 体 都 使 用 结构 如 图 3-25 所 示 的 帧 。 一 旦 建立 了 微微 网 ， 那 么 访问 码 由 一 个 
固定 的 导言 组 成 ， 以 使 发 送 者 和 接收 者 同步 ， 并 识别 槽 的 起 点 ， 然 后 是 从 主 节点 的 MAC 地 址 中 导 
出 的 唯一 识别 微微 网 的 代码 。 后 者 确保 帧 在 有 多 个 重 登 的 微微 网 的 情况 下 也 能 正确 地 路 由 。 因 为 
介质 可 能 有 噪声 ， 并 且 实 时 通信 不 能 依赖 重 传 ， 所 以 头 部 总 是 传输 三 次 ， 头 部 的 每 一 个 拷贝 也 携 
带 一 个 校 验 和 ， 接 收 者 检查 校 验 和 并 使 用 第 一 个 有 效 的 头 部 。 


比特 ， 72 0~2744 
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微微 网 内 的 地 址 =ACL, SCO, poll, null 


SCO 包 (例如 传递 声音 数据 的 ) 有 240 比 特有 效 负 载 ， 包 人 金 80 比 特 数 据 
的 3 个 找 贝 ,正好 占 一 个 时 间 模 。 


图 3-25 蓝牙 的 帧 结构 


”地 址 域 只 有 3 比特 ， 以 便 寻 址 到 7 个 当前 激活 的 从 节点 。 发 自主 节点 的 0 地 址 表示 是 一 个 广播 。 
流 控 制 、 确 认 和 序号 均 用 1 比特 的 域 表示 。 流 控制 比特 是 供 从 节点 使 用 的 ， 用 于 告知 主 节点 它 的 缓 
冲 区 已 满 。 主 节点 应 该 等 待 来 自从 节点 的 确认 比特 非 0 的 帧 。 每 次 新 的 帧 从 同一 节点 发 出 ， 序 列 号 
位 就 翻转 一 下 。 这 用 于 检测 重复 ( 即 重 传 的) 帧 。 

SCO 链 路 被 用 于 时 间 关 键 性 应 用 ， 例 如 双向 语音 交 痰 的 传输 。 为 了 保持 低 延 迟 ， 数 据 包 必须 
短 ， 在 这 种 应 用 中 报告 或 重 传 损 坏 的 数据 包 ， 没 有 太 大 的 意义 ， 因 为 重 传 的 数据 到 达 得 太 晚 就 没 
有 用 了 。 所 以 ，SCO 协 议 使 用 了 一 个 简单 的 高 度 宛 余 的 协议 ， 其 中 80 比 特 的 声音 数据 按 3 倍 量 传输 ， 
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即 产生 240 比 特 的 有 效 负载 。 任 何 两 两 匹配 的 80 比 特 的 副本 被 认为 是 有 效 的 。 

另 一 方面 ，ACL 链 路 可 用 于 数据 传输 应 用 ， 例 如 在 一 台 计算 机 和 一 部 电话 之 间 的 地 址 籍 同步 ， 
此 时 的 负载 比 上 述 的 应 用 更 大 。 这 里 不 复制 负载 ， 但 可 能 包含 一 个 内 部 的 校 验 和 ， 用 于 应 用 层 的 
检查 ， 如 果 出 现 故 障 ， 可 以 要 求 重 传 。 

数据 以 包 为 单位 传递 ， 由 主 节 点 分 配 和 控制 数据 包 传递 所 需 的 时 间 ， 数 据 包 传递 占据 625us 的 
时 间 模 。 每 个 数据 包 按 不 同 的 频率 沿 一 个 由 主 节点 指定 的 跳跃 顺序 传输 。 因 为 这 些 权 没 有 大 到 足 
以 允许 实际 的 负载 ， 所 以 帧 可 以 被 扩展 至 占据 1、3 或 5 个 槽 。 这 些 特征 和 底层 的 物理 传输 方法 使 微 
微 网 的 最 大 吞 叶 量 达到 1Mbps， 可 在 主 节点 和 从 节点 之 间 提供 3 个 64Kbps 的 同步 双 工 通道 ， 或 一 个 
用 于 蜡 步 数据 传递 的 速率 最 大 为 723Kbps 的 通道 。 这 些 吞 吐 量 是 根据 上 述 最 元 余 的 SCO 协 议 版 本 计 
算出 来 的 。 其 他 协议 变 体 则 是 为 获得 更 大 吞吐 量 权衡 了 3 倍数 据 复制 的 健壮 性 和 简单 性 (因此 计算 
开销 降低 ) 而 定义 的 。 

与 大 多 数 网 络 标准 不 同 ， 蓝 牙 包 含 了 几 个 应 用 层 协议 的 规约 ( 叫 设置 文件 ) ， 有 些 协议 是 专用 
于 某 一 类 应 用 的 。 设 置 文件 的 目的 是 增加 互 连 不 同 厂商 制造 的 设备 的 可 能 性 。13 个 应 用 设置 文件 
包括 : 通用 访问 、 服 务 发 现 、 串 行 端口 、 通 用 对 象 交换 、LAN 访 问 、 拨 号 网 络 、 传 真 、 无 绳 电话 、 
对 讲 机 、 耳 麦 、 对 象 推 、 文 件 传输 和 同步 。 其 他 的 设置 文件 还 在 准备 中 ， 包 括 通过 蓝 世 传输 高 质 
量 的 音频 甚至 视频 。 

蓝牙 在 无 线 局 域 网 中 占据 特殊 的 地 位 。 它 达到 了 支持 具有 令 人 满意 的 服务 质量 的 同步 实时 音 
频 通 信 (参见 第 17 章 有 关 服 务 质量 问题 的 进一步 讨论 ) 以 及 用 非常 低 的 开销 、 小 型 便携 式 硬件 、 
低能 耗 和 有 限 带宽 进行 异步 数据 传输 的 目标 。 

蓝牙 主要 的 不 足 在 于 与 新 设备 关联 所 花 的 时 间 (最 多 可 达 10s)。 这 妨碍 了 它 在 某 些 应 用 中 的 
使 用 ， 特 别 是 在 设备 之 间 相 对 移动 的 情况 下 的 使 用 ， 例 如 在 道路 收费 或 在 移动 电话 用 户 经 过 一 :个 
商店 时 传递 提示 信息 给 他 。 关 于 蓝牙 连 网 的 详细 内 容 可 参考 Bray 和 Sturman[2002] 的 书 。 

蓝牙 标准 2.0 版 〈 其 数据 吞吐 量 可 高 达 3Mbps， 足 够 承载 CD 音质 的 音频 数据 ) 在 本 书 编写 的 时 
候 正 在 批准 的 过 程 中 ， 包 括 更 快 的 关联 机 制 和 更 大 的 微微 网 地 址 等 的 改进 还 在 开发 中 。 


3.5.4 异步 传输 模式 网 络 


ATM 是 用 来 传输 各 种 数据 的 ， 包 括 音频 和 视频 这 样 的 多 媒体 数据 。 它 是 一 种 快速 包 交 换 网 ， 
基于 一 种 称 为 信 元 中 继 的 数据 包 路 由 方式 ， 其 操作 速度 比 传统 包 交 换 方式 快 很 多 。 它 的 高 速 源 于 
在 传输 中 间 站 点 上 避免 了 流 控 制 和 检 错 ， 因 此 ， 传 输 链 路 和 节点 的 数据 出 错 的 可 能 性 必须 很 低 。 
影响 性 能 的 另 一 个 因素 是 数据 传输 采用 简短 、 定 长 的 单元 ， 这 可 以 减少 中 间 节 点 缓冲 区 的 大 小 、 
复杂 性 和 队列 延迟 。ATM 以 连接 模式 运行 ， 但 只 有 在 有 足够 资源 时 才能 建立 连接 ， 一 旦 建立 连接 ， 
就 可 以 保证 质量 ( 即 带 宽 和 延迟 特征 )。 

ATM 是 一 种 数据 交换 技术 ， 它 可 在 已 有 的 数字 电话 网 上 实现 ， 后 者 一 直 是 同步 的 。 当 ATM 双 
加 在 像 SONET 同 步 光纤 网 [Omidyar and Aldridge 1993] 这 样 的 同步 高 速 数据 链 路 网 络 上 时 ，ATM 构 
成 了 一 个 更 灵活 的 带 有 许多 虚 连 接 的 高 速 数据 包 网 络 。 每 个 ATM 虚 连接 提供 带宽 和 延迟 保证 ， 因 
此 其 虚 电 路 可 支持 速度 不 同 的 多 种 服务 ， 其 中 包括 语音 (32Kbps)、 传 真 、 分 布 式 系统 服务 、 视 频 
和 高 清 电 视 (100 ~ 150Mbps)。ATMI[CCITTT 1990] 标 准 推荐 数据 传输 率 高 达 155Mbps 或 622Mbps 
的 虚 电 路 。 

ATM 网 络 可 在 光纤 、 铜 线 和 其 他 传输 介质 上 使 用 固有 模式 直接 实现 ， 使 用 现 有 的 光纤 技术 ， 
它们 的 带宽 可 以 达到 每 秒 十 亿 位 。 该 模式 在 局 域 网 和 城 域 网 中 使 用 。 

ATM 服 务 的 结构 分 为 三 层 ， 如 图 3-26 中 用 深 黑 条 表示 的 部 分 ，ATM 适 配 层 为 端 到 端 层 ， 只 在 
发 送 /接收 主机 上 实现 。 它 的 目标 是 支持 在 ATM 层 上 实现 现 有 的 TCP/IP 与 X.25 等 高 层 协议 。 为 适应 
不 同 的 高 层 协议 的 要 求 ， 适 配 层 的 不 同 版 本 提供 不 同 的 适 配 功能 。 为 了 构建 某 个 高 层 协议 ， 还 可 
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以 包括 一 些 通用 的 功能 ， 如 数据 包 的 组 装 和 拆 外 。 
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图 3-26 ATM 协 议 层 


ATM 层 提供 面向 连接 的 服务 ， 传 输 称 为 信和 元 的 定 长 数据 包 。 一 个 连接 由 虚拟 路 径 上 的 虚拟 通 
道 序列 组 成 。 虚 拟 通道 (VC) 是 在 源 地 址 到 目的 地 址 的 物理 路 径 中 的 一 条 链 路 的 两 个 端点 之 间 的 
一 个 逻辑 单 向 连接 。 虚 拟 路 径 (VP) 是 与 交换 节点 间 物 理 路 径 相 关 的 一 组 虚拟 通道 。 虚 拟 路 径 的 
目标 是 支持 一 对 端点 间 的 半 永 久 连 接 。 在 连接 建立 时 ， 会 动态 分 配 虚 拟 通道 。 

ATM 网 络 的 节点 扮演 下 列 三 种 角色 : 

。 主 机 : 发 送 和 接收 信息 。 

。VP 交 换 机 : 保存 用 于 显示 了 输入 虚拟 路 径 和 输出 虚拟 路 径 之 间 关系 的 表 。 

。VP/VC 交 换 机 : 为 虚拟 路 径 与 虚拟 通道 保存 类 似 的 表格 。 

一 个 ATM 信 元 有 5 字 节 的 信 元 头 和 48 字 节 的 数据 域 (参见 图 3-27) ， 即 使 只 有 部 分 数据 域 中 有 
数据 ， 也 发 送 整个 数据 域 。 信 元 头 包括 一 个 虚拟 通道 标识 符 和 一 个 虚拟 路 径 标识 符 ， 两 者 为 信 元 
在 网 络 上 路 由 提供 信息 。 虚 拟 路 径 标识 符 指定 了 传输 信 元 的 物理 链 路 上 的 一 条 特定 虚拟 路 径 ， 虚 
拟 通道 标识 符 指 定 虚拟 路 径 内 一 条 特定 的 虚拟 通道 。 其 他 信 元 头 域 用 于 表示 信 元 类 型 、 信 元 丢失 
优先 级 和 信 元 边界 。 


-一 = 悄 兹 站 :区 字 和 有 一 一 和 一 1 


虚拟 路 径 id | ”虚拟 通道 id ”| 标志 





PE 


53 字 节 
图 3-27 ATM 信 元 结构 

当 信 元 到 达 一 个 VP 交换 机 时 ， 在 路 由 表 中 查找 信 元 头 中 的 虚拟 路 径 标 识 符 ， 以 找 出 与 输出 物 

理 路 径 对 应 的 虚拟 路 径 标识 符 ， 如 图 3-28 所 示 。 交 换 机 将 新 的 虚拟 路 径 标 识 符 置 入 信 元 头 ， 然 后 将 


该 信 元 传输 到 输出 物理 路 径 上 。VYP/VC 交 换 机 基于 虚拟 路 径 标识 符 和 虚拟 通道 标识 符 可 完成 类 似 
的 路 由 功能 。 








标识 符 
二 = 二 > 虚拟 通道 
图 3-28 在 ATM 网 络 中 交换 虚拟 路 径 
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注意 ，VP 和 VC 标识 符 是 局 部 定义 的 。 这 种 方案 的 优点 是 无 需 定义 整个 网 络 范围 内 的 全 局 标识 
符 ， 那 样 会 是 一 个 很 大 的 数字 。 全 局 寻 址 方案 还 会 带 来 管理 开销 ， 并 需要 在 交换 机 上 的 信 元 头 和 
表 保 存 更 多 的 信息 。 

ATM 提 供 了 低 延 迟 的 服务 一 一 交换 延迟 大 约 是 每 次 交换 25us。 例 如 ， 当 一 条 消息 通过 10 台 交 
换 机 时 ， 需 要 250us 延 迟 。 这 和 分 布 式 系统 的 性 能 要 求 (参见 3.2 节 ) 很 相符 ， 这 表明 ATM 网 络 可 
以 支持 进程 间 通 信和 客户 一 服务 器 交互 ， 其 性 能 与 现 有 局 域 网 的 性 能 相当 或 优 于 现 有 局 域 网 的 性 
能 。ATM 还 可 以 使 用 ， 提 供 保证 业务 质量 的 超 宽带 通道 (适合 以 高 达 600Mbps 的 速度 传输 多 媒体 
数据 流 )。 纯 ATM 网 络 的 速度 甚至 可 以 达到 每 秒 十 亿 位 。 


3.6 ”小结 


我 们 重点 讨论 了 作为 分 布 式 系统 基础 的 网 络 概念 和 技术 ， 并 从 一 个 分 布 式 系统 设计 者 的 角度 
对 此 做 了 探讨 。 数 据 包 网 络 和 分 层 协 议 是 分 布 式 系统 的 通信 基础 。 局 域 网 基于 共享 介质 上 的 数据 
包 广 播 技术 ， 其 中 以 太 网 是 主流 技术 。 广 域 网 则 基于 包 交 换 将 数据 包 通 过 连接 的 网 络 路 由 到 目的 
地 。 路 由 选择 是 关键 问题 ， 目 前 有 不 少 路 由 算法 ， 其 中 距离 -向量 算法 是 最 基本 但 却 非常 有 效 的 
一 种 算法 。 必 须要 进行 拥塞 控制 来 防止 接收 方 和 中 间 节 点 的 缓冲 区 溢出 。 

通过 在 路 由 器 连接 的 一 组 网 络 上 登 加 “虚拟 ”互连网 络 协议 ， 可 以 构造 互连网 络 ， 因 特 网 的 
TCP/P 协 议 使 因特网 上 的 计算 机 可 以 以 统一 的 方式 通信 ， 无 论 它们 是 在 同一 个 局 域 网 上 ， 还 是 在 
不 同 的 国家 。 因 特 网 标准 包括 许多 适合 广 域 分 布 式 应 用 的 应 用 层 协 议 。IPv6 为 将 来 因特网 的 发 展 
预 留 了 相当 大 的 地 址 空间 ， 并 对 服务 质量 和 安全 性 等 新 的 应 用 需求 做 了 规定 。 

移动 IP 支 持 移动 用 户 进行 广 域 漫游 ， 基 于 IEEE 802 标 准 的 无 线 LAN 支 持 移动 用 户 进行 本 地 连 
接 。ATM 基 于 有 服务 质量 保证 的 虚 电 路 提供 超 宽带 的 异步 通信 。 


练习 


3.1 一 个 客户 将 200 字 节 的 请 求 消息 发 送 到 一 个 服务 ， 服 务 产生 了 5000 字 池 的 应 答 。 估 算 在 下 列 情 

况 下 ， 完 成 请 求 的 时 间 (其 性 能 假设 在 后 面 列 出 )。 

(1) 使 用 无 连接 (数据 报 ) 通信 (例如 UDP) 

(2) 使 用 面向 连接 (数据 报 ) 的 通信 (例如 TCP) 

(3) 服务 器 进程 与 客户 进程 在 同一 台 计 算 机 上 。 

其 中 : 在 发 送 或 接收 时 ， 每 个 数据 包 的 延迟 (本 地 或 远程 ) ， 5ms 

建立 连接 的 时 间 ( 仅 对 TCP) :5ms 

数据 传输 速率 : 10Mbps 

MTU:1000 字 节 

服务 器 请 求 处 理 时 间 : 2ms 

假设 网 络 处 于 轻 负 载 状态 。 

(第 66 页 ， 第 105 页 ) 

3.2 因特网 非常 大 ， 任 何 路 由 器 均 无 法 容纳 所 有 目的 地 的 路 由 信息 ， 那 么 因特网 路 由 方案 如 何 处 


理 这 个 问题 呢 ? (第 81 页 ， 第 97 页 ) 
3.3 以 太 网 交换 机 的 任务 是 什么 ? 它 要 维护 哪些 表 ? (第 88 页 ， 第 113 页 ) 
3.4 构造 一 个 类 似 于 图 3-5 的 表 ， 擂 述 当 因特网 应 用 与 TCP/IP 协 议 组 在 以 太 网 上 实现 时 ， 每 个 协议 
层 中 的 软件 所 做 的 工作 。 (第 77 页 ， 第 105 页 ， 第 113 页 ) 


3.5 端 到 端 争 论 [Saltzer et al. 1984] 是 如 何 用 于 因特网 的 设计 的 ?考虑 用 虚 电 路 网 协议 代替 IP 会 如 
何 影响 万 维 网 的 可 行 性 。 (第 39 页 ， 第 79 页 ， 第 89 页 ) [www.reed.com] 
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3.6 
3.7 


3.8 


3.9 


3.10 


3.11 


我 们 能 确保 因特网 中 不 会 有 两 台 计 算 机 使 用 同一 个 IP 地 址 吗 ? (第 92 页 ) 
对 于 下 面 应 用 层 和 表示 层 协议 的 实现 ， 比 较 无 连接 (UDP) 与 面向 连接 (TCP) 通信 。 


(D) 虚拟 终端 访问 (例如 Telnet) 
(2) 文件 传输 (例如 FTP) 
(3) 用 户 位 置 (例如 rwho、finger) 
(4) 信息 浏览 (例如 HTTP) 
(5) 远程 过 程 调用 
(第 105 页 ) 

解释 在 广域网 络 中 ， 为 什么 会 发 生 数据 包 序列 到 达 目 的 时 的 顺序 与 出 发 时 的 顺序 不 同 的 现象 。 
为 什么 这 种 现象 在 局 域 网 中 不 可 能 出 现 ? 它 可 能 在 ATM 网 络 中 出 现 吗 ? 

(第 80 页 ， 第 114 页 ， 第 124 页 ) 
在 Telnet 这 样 的 远程 终端 访问 协议 中 需要 解决 一 个 问题 ， 即 “Kill 信号 ”这 样 的 异常 事件 需要 
在 前 面 传输 的 数据 之 前 到 达 主 机 。Kil 信和 号 应 该 在 任何 其 他 正在 进行 的 传输 之 前 到 达 目 的 地 。 


讨论 该 问题 在 无 连接 与 面向 连接 协议 下 的 解决 方案 。 (第 105 页 ) 
使 用 网 络 层 广播 在 以 下 网 络 中 定位 资源 有 哪些 缺点 ? 

(1) 在 单个 以 太 网 中 

(2) 在 企业 内 部 网 中 

以 太 网 组 播 在 何 种 程度 上 改善 了 广播 ? (第 113 页 ) 
提出 一 个 改善 移动 IP 的 方案 ， 以 便 一 个 移动 设备 可 以 访问 Web 服 务 器 ， 访 移动 设备 有 时 通过 
移动 电话 连接 到 因特网 上 ， 而 在 其 他 时 候 通 过 有 线 网 连接 到 因特网 上 。 (第 104 页 ) 
说 明 在 图 3-7 中 标号 为 3 的 链 路 断 开 后 ， 图 3-8 中 路 由 表 的 改变 序列 (根据 图 3-19 中 给 出 的 RIP 
算法 )。 (第 81 页 ~ 第 85 页 ) 
以 图 3-13 作 为 基础 ， 描 述 到 服务 器 的 一 个 HTTP 请 求 的 分 割 与 封装 过 程 以 及 相应 的 应 答 。 假 
设 请 求 是 一 个 短 的 HTTP 消 息 ， 而 应 答 包 括 至 少 2000 字 节 的 HTML。 (第 76 页 ， 第 91 页 ) 


考虑 在 Telnet 远 程 终端 客户 中 使 用 TCP。 应 该 如 何在 客户 端 缓冲 键盘 输入 ? 在 (1) 一 个 Web 
服务 器 ，(2) 一 个 Telnet 应 用 ，(3) 一 个 具有 连续 鼠标 输入 的 远程 图 形 应 用 使 用 TCP 时 ， 研 
究 Nagle 与 Clark 的 流 控制 算法 [Nagle 1084, Clark 1982] 与 103 页 描述 的 简单 算法 ， 比较 这 两 个 
算法 。 (第 85 页 ， 第 107 页 ) 
参照 图 3-10， 构 造 你 工作 单位 的 局 域 网 的 网 络 图 。 (第 87 页 ) 
描述 如 何 配置 防火 墙 ， 以 保护 你 的 工作 单位 的 局 域 网 。 应 该 拦截 哪些 进出 的 请 求 ? 
(第 108 页 ) 
一 个 连接 到 以 太 网 的 新 安装 的 个 人 计算 机 是 如 何 发 现 本 地 服务 器 的 IP 地 址 的 ? 它 是 如 何 将 IP 
地 址 翻译 成 以 太 网 地 址 的 ? (第 94 页 ) 
防火 墙 是 否 可 以 防止 96 页 描述 的 服务 拒绝 攻击 ? 可 以 使 用 哪些 其 他 方法 处 理 这 样 的 攻击 ? 
(第 96 页 , 第 108 页 ) 
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第 4 章 进程 间 通 信 


本 章 关注 分 布 式 系 统 进程 间 通 信 的 协议 的 特征 ， 包 括 它 自身 的 固有 特征 和 支持 分 布 式 对 象 之 
间 通 信 两 方面 。 

用 于 因特网 中 进程 间 通 信 的 Jave API 提 供 数据 报 和 流通 信 。 本 章 将 介绍 这 两 方面 的 内 容 ， 同 时 
讨论 它们 的 故障 模型 。 它 们 为 通信 协议 提供 了 可 互 换 的 构造 成 分 。 

本 章 将 讨论 消息 中 数据 对 象 集合 的 表示 协议 和 引用 远程 对 象 的 协议 。 

本 章 还 将 讨论 支持 分 布 式 程序 中 常用 的 两 种 通信 模式 的 协议 的 构造 ， 这 两 种 通信 模式 是 ; 

“客户 一 服务 器 通信 : 在 该 通信 模式 下 ， 请 求 和 应 答 消息 是 远程 方法 调用 或 远程 过 程 调用 的 

基础 。 

“组 通信 : 在 该 通信 模式 下 ， 同 一 消息 被 发 送 到 几 个 进程 ， 本 章 将 用 UNIX 的 进程 间 通 信 作 为 

实例 研究 。 


4.1 简介 


本 章 和 下 一 章 将 关注 中 间 件 。 本 章 关注 图 4-1 中 深 色 部 分 标 出 的 组 件 设计 ， 该 层 的 上 层 将 在 第 5 
章 中 讨论 ， 它 涉及 将 通信 集成 到 编程 语言 范 型 中 ， 例 如 ， 通 过 提供 远程 方法 调用 (RMI) 或 远程 过 
程 调用 (RPC) 完成 集成 。 远 程 方法 调用 使 一 个 对 象 能 够 调用 一 个 远程 进程 中 的 对 象 的 方法 ， 远 程 
调用 的 系统 实例 有 CORBA 和 Java RMI。 类 似 地 ， 远 程 过 程 调用 使 客户 能 够 调用 远程 服务 器 上 的 一 


个 过 程 。 
Pe oe 


图 4-1 中 间 件 层 


第 3 章 讨论 了 因特网 传输 层 协议 UDP 和 TCP， 但 没有 介绍 中 间 件 和 应 用 程序 如 何 使 用 这 些 协议 。 
下 一 节 将 介绍 进程 间 通 信 的 特征 ， 并 从 编程 人 员 的 角度 讨论 UDP 和 TCP， 给 出 这 两 个 协议 各 自 的 
Java 接 口 ， 同 时 讨论 它们 的 故障 模型 。 本 章 的 最 后 一 节 是 实例 研究 ， 给 出 了 UDP 和 TCP 的 UNIX 套 
接 字 接口 。 

UDP 的 应 用 程序 接口 提供 了 消息 传递 抽象 一 -进程 间 通 信 的 最 简单 形式 。 这 使 得 一 个 发 送 进 程 
能 够 给 一 个 接收 进程 传递 一 个 消息 。 包 含 这 些 消息 的 独立 的 数据 包 称 为 数据 报 。 在 Java 和 UNIX 
API 中 ， 发 送 方 用 套 接 字 指 定 目的 地 ， 套 接 字 是 对 目的 计算 机 上 的 目标 进程 使 用 的 一 个 端口 的 间接 
引用 。 

TCP 的 应 用 程序 接口 提供 了 一 对 进程 之 间 的 双向 流 抽 象 。 相 互通 信 的 信息 由 没有 消息 边界 的 一 
连 串 数据 项 组 成 。 流 为 制造 者 一 消费 者 通信 提供 了 构造 成 分 [Bacon 2002]。 制 造 者 和 消费 者 形成 一 
对 进程 ， 前 者 的 作用 是 产生 数据 项 ， 后 者 的 作用 是 消费 数据 项 。 由 制造 者 发 送 给 消费 者 的 数据 项 





本 章 








进程 间 通 俗 好 





按 到 达 舌 序 排 在 队列 中 ， 直 到 消费 者 准备 好 接收 它们 为 止 。 在 没有 可 用 的 数据 项 时 ， 消 费 者 必须 
等 待 。 如 果 存 放 入 队 数 据 项 的 存储 空间 耗 尽 的 话 ， 制 造 者 也 必须 等 待 。 

考虑 到 不 同 的 计算 机 可 能 对 简单 数据 项 使 用 不 同 的 表示 方法 ， 本 章 的 第 3 节 将 介绍 如 何 将 应 用 
程序 使 用 的 对 象 和 数据 结构 翻译 成 适合 的 形式 ， 以 便 在 网 络 上 发 送 消息 。 第 3 节 还 将 讨论 分 布 式 系 
统 中 适合 表示 对 象 引用 的 一 种 方法 。 

本 章 的 第 4 节 和 第 5 节 将 讨论 支持 客户 一 服务 器 和 组 通信 的 协议 的 设计 。 请 求 一 应 答 协 议 用 于 
支持 以 RMI 或 RPC 方 式 进行 的 客户 一 服务 器 通信 。 组 播 协 议 用 于 支持 组 通信 。 组 播 是 进程 间 通 信 的 
一 种 ， 在 这 种 形式 下 ， 一 组 进程 中 的 一 个 进程 将 同一 消息 传送 给 组 中 的 所 有 成 员 进 程 。 

消息 传递 操作 用 于 构造 协议 ， 来 支持 特定 的 进程 角色 的 和 通信 模式 ， 例 如 远程 方法 调用 。 通 
过 检查 角色 和 通信 和 模式， 设计 基于 实际 交换 的 通信 协议 和 避免 元 余 是 可 能 的 。 特 别 是 这 些 专门 的 
协议 不 应 该 包括 元 余 的 确认 。 例 如 ， 在 一 个 请 求 一 应 答 通信 中 ， 确 认 请 求 消息 通常 被 认为 是 宛 余 
的 ， 因 为 应 答 消息 本 身 就 是 一 个 确认 。 如 果 一 个 更 专门 的 协议 需要 发 送 方 的 确认 或 其 他 特定 的 特 
征 ， 那 么 它们 要 提供 专门 的 操作 。 考 虑 到 用 最 少量 的 消息 交换 来 实现 协议 ， 那么 可 行 的 想法 是 仅 
在 需要 时 才 增 加 专门 的 功能 。 


4.2 因特网 协议 的 API 


本 节 将 讨论 进程 间 通 信 的 普遍 特征 ， 然 后 将 因特网 协议 作为 一 个 例子 讨论 ， 解 释 程序 员 如 何 
通过 UDPP 消 息 或 TCP 流 使 用 这 些 协 议 。 

4.2.1 节 将 回顾 2.3.2 节 提 到 的 消息 通信 操作 send 和 receive， 并 讨论 它们 如 何 相互 同步 以 及 如 何 
在 分 布 式 系 统 中 指定 消息 的 目的 地 。4.2.2 节 将 介绍 套 接 字 ， 它 用 于 UDP 和 TCP 的 应 用 编程 接口 中 ， 
4.2.3 节 会 讨论 UDP 和 它 的 Java API，4.2.4 节 讨论 TCP 和 它 的 Java API。Java API 是 面向 对 象 的 ， 但 
它 与 最 初 在 Berkeley BSD4.x UNIX 操 作 系统 中 设计 的 API 很 相似 ， 相 关 的 讨论 参见 4.6 节 。 研 究 本 
节 程 序 例子 的 读者 应 该 参阅 Java 联 机 文档 或 Flanagan{2002] 的 书 ， 以 便 得 到 所 讨论 的 类 (在 java.net 
包 中 ) 的 完整 规约 。 


4.2.1 进程 间 通 信和 的 特征 


由 send 和 receive 这 两 个 消息 通信 操作 来 支持 一 对 进程 间 进 行 的 消息 传递 ， 它 们 均 用 目的 地 和 
消息 定义 。 为 了 使 一 个 进程 与 另 一 个 进程 通信 ， 一 个 进程 发 送 一 个 消息 ( 字 节 序列 ) 到 目的 地 ， 
在 目的 地 的 另 一 个 进程 接收 消息 。 读 活动 涉及 发 送 进程 到 接收 进程 间 的 数据 通信 ， 会 涉及 两 个 进 
程 的 同步 。4.2.3 节 将 给 出 因特网 协议 的 Java API 中 的 send 和 receive 操 作 的 定义 。 

和 则 步 和 异步 通信 ”每 个 消息 目的 地 与 一 个 队列 相关 。 发 送 进程 将 消息 添加 到 远程 队列 中 ， 接 收 
进程 从 本 地 队列 中 删除 消息 。 发 送 进程 和 接收 进程 之 间 的 通信 可 以 是 同步 的 也 可 以 是 异步 的 。 在 
同步 通信 中 ， 发 送 进程 和 接收 进程 在 每 个 消息 上 同步 。 这 时 ，send 和 receive 都 是 阻塞 操 作 。 每 次 发 
出 一 个 send 操 作 后 ， 发 送 进程 〈 或 线程 ) 将 一 直 阻 塞 ， 直 到 发 送 了 相应 的 receive 操 作为 止 。 每 次 发 
送 一 个 receive 后 ， 进 程 (或 线程 ) 将 一 直 阻 塞 ， 直 到 消息 到 达 为 止 。 

在 异步 通信 中 ，send 操 作 是 非 阻 室 型 的 ， 只 要 消息 被 复制 到 本 地 缓冲 区 ， 发 送 进程 就 可 以 继 
续 进 行 其 他 处 理 ， 消 息 的 传递 与 发 送 进程 并 行进 行 。receive 操 作 有 阻塞 型 和 非 阻塞 型 两 种 形式 。 
在 不 阻塞 的 receive 操 作 中 ， 接 收 进程 在 发 出 receive 操 作 后 可 继续 执行 它 的 程序 ， 这 时 receive 操 作 
在 后 台 提供 一 个 缓冲 区 ， 但 它 必 须 通过 轮 循 或 中 断 独立 接收 缓冲 区 已 满 的 通知 。 

在 支持 多 线程 的 系统 环境 (如 Java) 中 ， 阻 塞 型 receive 操 作 的 缺点 较 少 ， 因 为 在 一 个 线程 发 出 
receive 操 作 时 ， 该 进程 中 的 其 他 线程 仍然 是 活动 的 ， 到 达 的 消息 与 接收 线程 同步 的 实现 很 简单 是 
一 个 优势 。 非 阻塞 型 的 通信 看 上 去 更 有 效 ， 但 接收 进程 需要 从 它 的 控制 流 之 外 获取 到 达 的 消息 ， 
这 涉及 额外 的 复杂 工作 。 鉴 于 此 ， 当 前 的 系统 通常 不 提供 非 阻塞 型 的 receive 操 作 。 
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消息 目的 地 第 3 章 解释 了 在 因特网 协议 中 ， 消 息 如 何 被 发 送 到 〈 因 特 网 地 址 ， 本 地 篇 口 ) 对 。 
本 地 端口 是 计算 机 内 部 的 消息 目的 地 ， 用 一 个 整数 指定 。 一 个 端口 只 能 有 一 个 接收 者 (组 播 端 口 
是 一 个 例外 ， 见 4.5.1 节 ) 但 可 以 有 多 个 发 送 者 。 进 程 可 以 使 用 多 个 端口 接收 消息 。 任 何 知道 端口 
号 的 进程 都 能 向 端口 发 送 消 息 。 服 务 器 通常 公布 它们 的 端口 号 供 客 户 使 用 。 

如 果 客 户 使 用 一 个 固定 的 因特网 地 址 访问 一 个 服务 ， 那 么 这 个 服务 必须 总 在 该 地 址 所 代表 的 
计算 机 上 运行 ， 以 保持 该 服务 的 有 效 性 。 使 用 下 列 任何 一 种 方法 可 避免 这 种 情况 ， 以 提供 位 置 透 
明 性 : 

“客户 程序 通过 名 字 使 用 服务 ， 在 运行 时 用 一 个 名 字 服 务 器 或 绑 定 器 (参见 5.2.5 节 ) 把 服务 的 

名 字 翻 译 成 服务 器 位 置 。 这 样 就 使 得 服务 能 重 定位 ， 但 不 能 迁移 ， 迁 移 指 在 系统 运行 时 移动 

服务 所 在 的 位 置 。 

“操作 系统 (如 Mach， 参 见 www.cdk4.netoss) 给 消息 目的 地 提供 了 一 个 与 位 置 无 关 的 标识 符 ， 

并 将 它们 映射 到 一 个 底层 地 址 以 便于 将 消息 分 发 到 端口 ， 这 种 方法 使 服务 能 够 迁移 和 重 定位 。 

替代 端口 的 另 一 种 方法 是 将 消息 发 给 进程 ，V 系 统 就 采用 了 这 种 做 法 [Cheriton 1984] 。 然 而 ， 
端口 有 它 的 优点 ， 它 给 一 个 接收 进程 提供 了 多 个 可 选 的 入 口 点 。 在 一 些 应 用 中 ， 将 同一 个 消息 分 
发 给 一 组 进程 是 非常 有 用 的 。 因 此 ， 一 些 IPC 系 统 提供 了 将 消息 发 给 目的 地 组 的 能 力 ， 这 里 的 目的 
地 可 以 是 进程 也 可 以 是 端口 。 例 如 ，Chorus[Rozier et al. 1990] 提 供 了 端口 组 。 

可 靠 性 ”第 2 章 从 有 效 性 和 完整 性 角度 定义 了 可 靠 通信 。 就 有 效 性 而 言 ， 如 果 一 个 点 对 点 消息 
服务 尽管 丢失 了 “合理 ”数量 的 数据 包 ， 但 仍 能 保证 发 送 消 息 ， 那 么 该 服务 就 被 称 为 可 靠 的 。 相 
反 ， 哪 怕 只 丢失 一 个 数据 包 ， 但 消息 不 能 保证 发 送 ， 那 么 这 个 点 对 点 消息 服务 仍 是 不 可 靠 的 。 从 
完整 性 而 言 ， 到 达 的 消息 必须 没有 损坏 ， 且 没有 重复 。 

排序 有 些 应 用 要 求 消息 要 按 发 送 方 的 顺序 发 送 ， 也 就 是 ， 按 发 送 方 发 送 消 息 的 顺序 。 与 发 送 
方 顺 序 不 一 致 的 消息 发 送 会 被 这 样 的 应 用 认为 是 失败 的 发 送 。 

4.2.2 套 接 字 


两 种 形式 的 通信 (UDP 和 TCP) 都 使 用 套 接 字 抽 象 ， 套 接 字 提供 进程 间 通 信 的 一 个 端点 。 套 
接 字源 于 BSD UNIX, 但 也 在 UNIX 的 大 多 数 版 本 中 出 现 , 包括 Linux 以 及 Windows 和 Macintosh OS 。 
进程 间 通 信 是 在 两 个 进程 各 自 的 一 个 套 接 字 之 间 传送 一 个 消息 ， 如 图 4-2 所 示 。 对 接收 消息 的 进程 ， 
它 的 套 接 字 必须 绑 定 到 它 在 其 上 运行 的 计算 机 的 一 个 因特网 地 址 和 一 个 本 地 端口 。 发 送 到 特定 因 
特 网 地 址 和 端口 号 的 消息 只 能 被 一 个 其 套 接 字 与 该 因特网 地 址 和 端口 号 相关 的 进程 接收 。 进 程 可 
以 使 用 同一 套 接 字 发 送 和 接收 消息 。 每 个 计算 机 有 大 量 (2:5) 可 用 的 端口 号 供 本 地 进程 用 于 接收 
消息 。 任 意 一 个 进程 可 利用 多 个 端口 来 接收 消息 ， 但 一 个 进程 不 能 与 同一 台 计 算 机 上 的 其 他 进程 
共享 端口 。 使 用 IP 组 播 的 进程 是 一 个 例外 ， 因 为 它们 共享 端口 一 参见 4.5.1 节 。 然 而 ， 任 何 数 量 的 
进程 都 可 以 发 送 消息 到 同一 个 端口 。 每 个 套 接 字 与 某 个 协议 (UDP 或 TCP) 相关 。 








D qd 
: 议定 好 的 端口 i 
套 接 字 DD “任意 端口 人 qd  ，。。 碍 接 字 
D 消息 a 服务 吕 
2 其 他 端 虽 一 一 一 (] 
ee DD 0 
因特网 地 址 =138.37.94.248 因特网 地 址 =138.37.88.249 


图 4-2 套 接 字 和 端口 
用 于 因特网 地 址 的 Java API 因为 UDP 和 TCP 底 层 的 IP 数 据 包 被 发 送 到 因特网 地 址 ， 所 以 Java 
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提供 了 一 个 类 InetAddress， 用 以 表示 因特网 地 址 。 该 类 的 用 户 用 域名 服务 (DNS) 的 主机 名 表示 
计算 机 (参见 3.4.7 节 )。 例 如 ， 包 含 因特网 地 址 的 InetAddress 实 例 通过 调用 InetAddress 的 静态 方法 
(以 DNS 主 机 名 作为 参数 ) 创建 。 该 方法 使 用 DNS 获得 相应 的 因特网 地 址 。 例 如 ， 对 于 DNS 名 为 
bruno.dcs.qmul.ac.uk 的 主机 ， 为 了 得 到 表示 其 因特网 地 址 的 对 象 ， 使 用 下 列 语句 : 

InetAddress aComputer = InetAddress.getByName( "bruno.dcs.qgmul.ac.uk"); 

该 方法 会 抛 出 UnknownHostException 异 常 。 注 意 ， 类 的 用 户 不 需要 给 出 显 式 的 因特网 地 址 值 。 
事实 上 ，InetAddress 类 封装 了 因特网 地 址 表示 的 细节 。 这 样 ， 该 类 的 接口 与 表示 因特网 地 址 的 字 
节 数 无 关 一 一 在 IPv4 中 是 4 字 节 ， 在 IPv6 中 是 16 字 节 。 


4.2.3 UDP 数据 报 通 信 


由 UDP 发 送 的 数据 报 从 发 送 进程 传输 到 接收 进程 ， 它 不 需要 确认 或 重 发 。 如 果 发 生 故 障 ， 消 
息 可 能 无 法 到 达 日 的 地 。 当 一 个 进程 发 送 (send) 数据 报 ， 另 一 个 进程 接收 (receive) 该 数据 报时 ， 
数据 报 就 会 在 进程 之 间 传 送 。 要 发 送 或 接收 消息 ， 进 程 必须 首先 创建 与 一 个 本 地 主机 的 因特网 地 
址 和 本 地 端口 绑 定 的 套 接 字 。 服 务 器 将 把 它 的 套 接 字 绑 定 到 一 个 服务 器 端口 ， 该 端口 应 让 客户 知 
道 ， 以 便 客 户 给 该 端口 发 送 消息 。 客 户 将 它 的 套 接 字 绑 定 到 任何 一 个 空闲 的 本 地 端口 。Receive 方 
法 除了 获得 消息 外 ， 还 获得 发 送 方 的 因特网 地 址 和 端口 ， 这 些 信息 允许 接收 方 发 送 应 答 。 

下 面 讨论 与 数据 报 通 信 有 关 的 一 些 问题 

消息 大 小 : 接收 进程 要 指定 固定 大 小 的 用 于 接收 鳞 息 的 字 节 数 组 。 如 果 消 息 大 于 数组 大 小 ， 
那么 消息 在 到 达 时 会 被 截断 。 底 层 的 IP 协 议 允 许 数据 包 的 长 度 最 大 为 25 字 节 ， 其 中 包括 消息 头 和 
消息 本 身 。 然 而 ， 在 大 多 数 环境 下 ， 消 息 的 大 小 被 限制 为 8KB 左 右 。 如 果 应 用 程序 有 大 于 最 大 值 
的 消息 ， 那 么 必须 将 该 消息 分 割 成 若干 段 。 通 常 ， 由 应 用 (如 DNS) 决定 消息 大 小 一 一 不 需要 选用 
很 大 的 值 仅 只 要 适用 即 可 。 

阻塞 ， 套 接 字 通 常 提供 非 阻 塞 型 的 send 操 作 和 阻塞 型 的 receive 操 作 以 进行 数据 报 通 信 (在 某 
些 实现 中 也 会 使 用 非 阻 塞 型 receive 操 作 )。 当 send 操 作 将 消息 传递 给 底层 的 UDP 和 IP 协 议 后 就 返回 ， 
UDP 和 IP 协 议 负 责 将 消息 传递 到 目的 地 。 消 息 到 达 时 被 放 在 与 目的 端口 绑 定 的 套 接 字 队 列 中 。 通 
过 该 套 接 字 上 的 下 一 个 receive 调 用 ， 就 可 以 从 队列 中 获取 该 消息 。 如 果 没 有 一 个 进程 具有 绑 定 到 
目的 端口 的 套 接 字 ， 那 么 消息 就 会 在 目的 地 被 丢弃 。 

除非 在 套 接 字 上 设置 了 超时 ， 否 则 receive 方 法 将 一 直 阻 塞 直到 接收 到 一 个 数据 报 为 止 。 如 果 
调用 receive 方 法 的 进程 在 等 待 消息 时 还 有 其 他 工作 要 做 ， 那 么 应 该 安排 它 单独 使 用 一 个 线程 ， 有 
关 线 程 的 讨论 请 参见 第 6 章 。 例 如 ， 当 服务 器 从 客户 端 接收 到 一 个 消息 时 ， 消 息 会 指定 要 做 的 工作 ， 
这 时 ， 服 务 器 将 使 用 单独 的 线程 完成 工作 或 等 待 其 他 客户 发 送 的 消息 。 

超时 : 一 直 阻 塞 的 receive 适 用 于 正在 等 待 接 收 客户 请 求 的 服务 器 。 但 在 有 些 程序 中 ， 发 送 进 
程 可 能 崩溃 或 期 待 的 消息 已 经 丢失 ， 使 用 receive 操 作 的 进程 不 适合 无 限制 地 等 待 下 去 。 为 了 解决 
这 样 的 问题 ， 要 在 套 接 字 上 设置 超时 。 选 择 适当 的 超时 间隔 不 太 容易 ， 但 与 传输 消息 所 要 求 的 时 
间 相 比 ， 它 应 该 更 长 一 些 。 

任意 接收 ，receive 方 法 不 指定 消息 的 来 源 ， 而 调用 receive 可 获得 从 任何 来 源 发 到 它 的 套 接 字 
上 的 消息 。receive 方 法 返回 发 送 方 的 因特网 地 址 和 本 地 端口 ， 允 许 接 收 方 检查 消息 的 来 源 。 可 以 
将 数据 报 套 接 字 连接 到 某 个 远程 端口 和 因特网 地 址 ， 这 时 ， 套 接 字 只 从 那个 地 址 接收 消息 ， 并 向 
该 地 址 发 送 消息 。 

故障 模型 ”第 2 章 给 出 了 通信 通道 的 故障 模型 ， 并 从 完整 性 和 有 效 性 的 角度 定义 了 可 靠 通信 。 
完整 性 要 求 消息 不 能 损坏 或 重复 ， 利 用 校 验 和 可 保证 接收 到 的 消息 几乎 不 会 损坏 。 第 2 章 的 故障 模 
型 可 用 于 提供 UDP 数据 报 的 故障 模型 ，UDP 数 据 报 存在 下 列 故 障 ; 

遗漏 故障 ， 消息 偶尔 会 丢失 ， 这 可 能 是 因为 校 验 和 错误 或 是 在 发 送 端 或 目的 端 没 有 可 用 的 组 
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训 区 空间 造成 的 。 为 简化 讨论 ， 我 们 把 发 送 遗 漏 故障 和 接收 遗漏 故障 ( 见 图 2-11) 视 为 通信 通道 中 
的 遗漏 故障 。 

排序 : 消息 有 时 设 有 按 发 送 方 顺序 发 送 。 

为 了 获得 所 要 求 的 可 靠 通 信 的 质量 ， 使 用 UDP 数据 报 的 应 用 要 自己 提供 检查 手段 。 可 以 利用 
确认 将 一 个 有 遗漏 故障 的 服务 构造 为 可 靠 传送 服务 。4.4 节 将 讨论 如 何在 UDP 上 构造 可 靠 的 用 于 客 
户 一 服务 器 通信 的 请 求 一 应 答 协议 。 

UDP 的 使 用 ”对 某 些 应 用 而 言 ， 使 用 偶尔 有 遗漏 故障 的 服务 是 可 接受 的 。 例 如 ， 域 名 服务 
(负责 查找 在 因特网 上 的 DNS 名 ) 就 是 在 UDP 上 实现 的 。VOIP (Voice Over IP) 也 运行 在 UDP 上 。 
有 时 UDP 数据 报 是 一 个 很 有 吸引 力 的 选择 ， 因 为 它们 没有 与 保证 消息 传递 相关 的 开销 。 开 销 主要 
源 自 以 下 三 个 方面 : 

1) 需要 在 源 和 目的 地 存储 状态 信息 。 

2) 传输 额外 的 消息 。 

3) 发 送 方 的 延迟 。 

产生 这 些 开销 的 原因 请 参见 4.2.4 节 的 讨论 。 

UDP 数据 报 的 Java API Java API 通 过 DatagramPacket 和 DatagramSocket 这 两 个 类 提供 数据 报 
通信 。 

DatagramPacket， 该 类 提供 构造 国 数 ， 用 一 个 包含 消息 的 字 节 数组 、 消 息 长 度 和 目的 地 套 接 字 
的 因特网 地 址 和 本 地 端口 号 生成 一 个 实例 ， 如 下 图 所 示 : 


数据 报 的 数据 包 


包含 消息 的 字 节 数组 消息 长 度 因特网 地 址 端口 号 


DatagramPacket 实 例 可 以 在 进程 之 间 传送 ， 此 时 其 中 一 个 进程 发 送 ， 另 一 个 进程 接收 。 

该 类 还 提供 了 另 一 个 在 接收 消息 时 使 用 的 构造 函数 ， 它 的 参数 是 一 个 用 于 接收 消息 的 字 节 数 
组 和 数组 长 度 。DatagramPacket 存 放 接收 到 的 消息 、 消 息 长 度 以 及 发 送 套 接 字 的 因特网 地 址 和 端 
口 。 可 以 从 DatagramPacket 通 过 getData 方 法 检索 消息 。 getPort 和 getAddress 方 法 访问 端口 和 因 特 
网 地 址 。 

DatagramSocket: 该 类 支持 套 接 字 发 送 和 接收 UDP 数 据 报 。 它 提供 一 个 以 端口 号 为 参数 的 构 
造 函 数 ， 用 于 需要 使 用 特定 端口 的 进程 。 它 也 提供 一 个 无 参数 的 构造 函数 ， 以 便 系统 选择 一 个 空 
用 的 本 地 端口 。 如 果 端 口 已 经 被 使 用 或 在 UNIX 下 指定 了 一 个 保留 端口 (小 于 1024 的 数字 ) ， 那 么 
这 些 构造 函数 会 抛 出 SocketException 异 常 。 

类 DatagramSocket 提 供 以 下 方法 ， 

。send 和 和 receive: 这 些 方法 用 于 在 一 对 套 接 字 之 间 传 送 数 据 报 。send 的 参数 是 包含 消息 和 它 
目的 地 的 DatagramPacket 实 例 。 receive 的 参数 是 一 个 空 的 DatagramPacket， 用 于 存放 消息 、 
消息 的 长 度 和 来 源 。 send 和 和 receive 方 法 会 抛 出 IOExceptions 异 常 。 

。setSoTimeout: 该 方法 用 于 设置 超时 。 设 置 超时 后 ，receive 方 法 将 在 指定 的 时 间 内 阻塞 ， 然 
后 抛 出 一 个 InterruptedIOException 异 常 。 

。 connect: 该 方法 用 于 连接 到 某 个 因特网 地 址 和 远程 端口 ， 这 时 套 接 字 仅 能 从 该 地 址 接收 消 
息 并 向 该 地 址 发 送 消息 。 

在 图 4-3 所 示 的 客户 程序 中 ， 客 户 先 创建 一 个 套 接 字 ， 然后 给 位 于 端口 6789 的 服务 器 发 送 消 

息 ， 并 等 待 接收 应 答 。 main 方 法 的 参数 是 消息 和 服务 器 的 DNS 主机 名 。 消息 被 转换 为 一 个 字 节 数 
组 ，DNS 主 机 名 被 转换 为 一 个 因特网 地 址 。 图 4-4 还 给 出 了 相应 的 服务 器 程序 ， 服 务 器 创建 绑 定 


到 服务 器 端口 6789 的 套 接 字 ， 然 后 一 直 等 待 接收 来 自 客户 的 请 求 消息 ， 然 后 发 回 同样 的 消息 作为 
应 答 。 











import java.net.*; 
import java.io.*, 
public class UDPClient{ 
public static void main(String args[]){ 


// args give message contents and server hostname 


DatagramSocket aSocket = null: 
wry{ 
aSockert = new DatagramSocker( ): 
byte [] m = args[0].getBytes(); 
InetAddress aHost = InetiAddress.getByName({args[ 1}); 


int serverPort = 6789; 
DatagramPacket request = 
Pet DatagrampPacket(m, args{0}.length(), aFlost, serverPort); 

aSocket.send{request); 

bytel] buffer = new bytef 1000]; 

DatagramPacket reply = new DatagramPacket(buffer, buffer.length): 

aSocket.receive(reply); 

System.out.printin( "Reply: " + new String(reply.getData( ))); 
Jcatch (SocketException e}{ System.out.printin( "Socket: " + e.getMessagel)); 
Jcatch {IOException eSystem.out.println( "IO: " + e.getMessagel)); 
Jfinally {fifftaSocket != null) aSocket.close();} 





图 4-3 UDP 客户 发 送 一 个 消息 到 服务 器 并 获得 一 个 应 答 


import java.net.*, 
import java.to.*, 
public class UDPServerf 
public static void main(String args[]}H 
DatagramSockert aSocket = null; 
wry{ 
aSocket = new DatagramSocket(6789); 
bytef] buffer = new bytef1000]; 
while{trueH 
DatagramPacket request = new DatagramPacket(buffer, buffer.length); 
aSocket.receive{request); 
DatagramPacket reply = new DatagramPacket{request.getDatal ), 


request.getLength(), request.getAddress{)}, request.getPort()); 
aSocket.send(reply); 


2} 


Jcatch (SocketException eM System.out.printIn( "Socket: " + e.getMessage()); 
Jeatch (IOException e) {System.out.printin( "IO: " + e.getMessage{)); 
Jfinally {iffaSocker != null) aSocket.close();} 





图 4-4 UDP 服 务 器 不 断 接 收 请 求 并 将 它 发 回 给 客户 139 





90 甸子 全 





4.2.4 TCP 流 通信 

TCP 协 议 的 API 源 于 BSD 4.x UNIX， 它 提供 了 可 读 写 的 字 节 流 。 流 抽象 可 隐藏 网 络 的 下 列 特征 ， 

消息 大 小 ， 应 用 能 选择 它 写 到 流 中 和 从 流 中 读 取 的 数据 量 。 它 可 处 理 非常 小 或 非常 大 的 数据 
集 。TCP 流 的 底层 实现 决定 了 在 将 数据 作为 一 个 或 多 个 IP 数 据 包 传送 前 ， 要 搜集 多 少数 据 。 数 据 到 
达 后 按 需 求 传递 给 应 用 ， 如 果 有 必要 ， 应 用 可 以 强制 数据 马上 发 送 。 

丢失 的 消息 : TCP 协 议 使 用 确认 方案 。 以 一 个 简单 的 方案 作为 例子 (注意 ， 在 TCP 中 没有 使 用 
这 种 方案 )， 发 送 端 记录 每 个 发 送 的 IP 数 据 包 ， 接 收 端 确认 所 有 消息 的 到 达 。 如 果 在 一 个 超时 时 间 
段 内 ， 发 送 方 没有 接收 到 确认 信息 ， 则 发 送 方 重 传 该 消息 。 更 复杂 的 请 动 窗口 方案 [Comer2000al] 
减少 了 所 需 的 确认 消息 的 个 数 。 

流 控制 :TCP 协议 试图 匹配 读 写 流 的 进程 的 速度 。 如 果 对 读 取 流 的 进程 来 说 写 入 流 的 进程 太 快 ， 
那么 它 会 被 阻塞 直到 读 取 流 的 进程 消化 掉 足 够 的 数据 为 止 。 

消息 重复 和 排序 : 每 个 1P 数 据 包 与 消息 标识 符 相 关联 ， 这 使 得 接收 方 能 检测 和 丢弃 重复 的 消 
息 ， 或 重 排 没有 以 发 送 方 顺 序 到 达 的 消息 。 

消息 目的 地 : 一 对 通信 进程 在 它们 能 在 流 上 通信 之 前 要 先 建立 连接 。 一 量 建 立 了 连接 ， 进 程 
不 需要 使 用 因特网 地 址 和 端口 就 可 以 读 写 流 。 在 通信 发 生前 ， 建 立 连 楼 涉及 客户 给 服务 器 发 送 一 
个 connect 请 求 ， 然 后 服务 器 向 客户 发 送 一 个 accept 请 求 。 对 单个 客户 一 服务 器 请 求 和 应 答 而 言 ， 这 
是 相当 大 的 开销 。 

流通 信 的 API 假 设 ， 当 一 对 进程 在 建立 连接 时 ， 其 中 一 个 进程 作为 客户 ， 另 一 个 进程 作为 服务 
器 ， 但 之 后 它们 又 是 平等 的 。 客 户 角色 涉及 创建 绑 定 到 端口 的 流 套 接 字 ， 然 后 ， 发 出 connect 请 求 ， 
在 服务 器 的 端口 上 请 求 与 服务 器 连接 。 上 服务 器 角色 涉及 创建 绑 定 到 服务 器 端口 的 监听 套 接 字 ， 然 
后 等 待 客户 请 求 连接 。 监 听 套 接 字 维 护 到 达 的 连接 请 求 队列 。 在 套 接 字模 型 中 ， 当 服务 器 accept 
(接受 ) 一 个 连接 ， 就 创建 一 个 新 的 流 套 接 字 用 于 与 客户 的 通信 ， 同 时 保持 在 服务 器 端 日 上 的 套 接 
字 用 于 监听 其 他 客户 的 connect 请 求 。connect 和 accept 操 作 的 更 多 细节 将 在 本 章 最 后 的 UNIX 实 例 研 
究 中 加 以 介绍 。 

客户 和 服务 器 的 套 接 字 对 由 一 对 流 相连 接 ， 每 个 方向 一 个 流 。 这 样 ， 每 个 套 接 字 有 一 个 输入 
流 和 一 个 输出 流 。 进 程 对 中 的 任何 一 个 进程 都 可 以 通过 将 信息 写 入 它 的 输出 流 来 发 送信 息 给 另 一 
个 进程 ， 而 另 一 个 进程 通过 读 取 它 的 输入 流 来 获得 信息 。 

当 一 个 应 用 close 一 个 套 接 字 时 ， 表 示 它 不 再 写 任何 数据 到 它 的 输出 流 。 输 出 缓冲 区 中 的 任何 
数据 被 送 到 流 的 另 一 端 ， 放 在 目的 地 套 接 字 的 队列 中 ， 并 指明 流 已 断 开 了 。 目 的 地 进程 能 读 取 队 
列 中 的 数据 ， 但 在 队列 为 空 之 后 进行 任何 读 操作 都 会 返回 流 结束 的 标志 。 当 进程 退出 或 失败 时 ， 
它 的 所 有 套 接 字 最 终 被 关闭 ， 任 何 试图 与 它 通 信 的 进程 将 发 现 连 接 已 中 断 。 

下 面 说 明 一 些 与 流通 信和 相关 的 重要 问题 。 

数据 项 的 匹配 : 两 个 通信 进程 需要 对 在 流 上 传送 的 数据 的 内 容 达 成 一 致 。 例 如 ， 如 果 一 个 进 
程 在 流 中 人 先 写 入 一 个 整 型 数据 ， 后 面 跟 一 个 双 精 度 型 数据 ， 那 么 另 一 端的 进程 必须 先 读 取 整 型 数 
据 ， 后 读 取 双 精 度 型 数据 。 当 一 对 进程 不 能 在 流 的 使 用 上 正确 协作 时 ， 读 进程 在 解释 数据 时 可 能 
会 出 错 ， 或 者 可 能 由 于 流 中 数据 不 足 而 产生 阻塞 。 

阻塞 : 写 入 流 的 数据 保存 在 目的 地 套 接 字 的 队列 中 。 当 进程 试图 从 输入 通道 读 取 数据 时 ， 它 
将 直接 从 队列 中 获得 数据 或 一 直 阻 塞 直到 队列 中 有 可 用 的 数据 为 止 。 如 果 在 另 一 端的 套 接 字 队 列 
中 的 数据 与 协议 允许 的 数据 一 样 多 ， 那 么 将 数据 写 入 流 的 进程 可 能 被 TCP 流 控制 机 制 阻塞 。 

线程 ， 当 服务 器 接受 连接 时 ， 它 通常 创建 一 个 新 线程 用 干 与 新 客户 通信 。 为 每 个 客户 使 用 单 
独 的 线程 的 好 处 是 服务 器 在 等 待 输 入 时 能 阻塞 而 不 会 延误 其 他 客户 。 在 不 提供 线程 的 环境 中 ， 另 
一 种 方法 是 在 试图 读 取 数 据 前 测试 来 自流 的 输入 是 否 可 用 。 例 如 ， 在 UNIX 环 境 中 select 系 统 调用 便 
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用 于 这 个 目的 。 

故障 模型 ”为 了 满足 可 靠 通信 的 完整 性 ，TCP 流 使 用 校 验 和 检查 并 丢弃 损坏 的 数据 包 ， 使 用 序 
列 号 检 铀 和 丢弃 重复 的 数据 包 。 为 保证 有 效 性 ，TCP 流 使 用 超时 和 重 传 来 处 理 丢 失 的 数据 包 。 因 此 ， 
即使 底层 有 些 数 据 包 丢失 ， 还 是 可 以 保证 消息 的 传输 。 

但 是 ， 如 果 连 接 上 的 数据 包 丢 失 超 过 了 限制 以 及 连接 一 对 通信 进程 的 网 络 不 稳定 或 严重 拥塞 ， 
那么 负责 发 送 消 息 的 TCP 软 件 将 收 不 到 确认 ， 这 种 情况 持续 一 段 时 间 之 后 ，TCP 就 会 声明 该 连接 已 
中 断 。 这 时 TCP 不 能 提供 可 靠 通 信 ， 因 为 它 不 能 面临 各 种 可 能 的 困难 时 保证 消息 的 传输 。 

当 连 接 中 断后 ， 使 用 它 的 进程 如 果 还 试图 进行 读 或 写 操作 ， 就 会 接 到 有 关 的 通知 。 这 会 产生 
下 列 后 果 ， 

*。 使 用 连接 的 进程 不 能 区 分 是 网 络 故障 还 是 连接 另 一 端的 进程 故障 。 

“通信 进程 不 能 区 分 最 近 它 们 发 送 的 消息 是 否 已 被 接收 。 

TCP 的 使 用 许多 经 常 使 用 的 服务 在 TCP 连 接 上 运行 ， 使 用 保留 的 端口 号 。 这 些 服务 包括 ; 

。HTTP: ” 超 文 本 传送 协议 用 于 Web 浏 览 器 和 Web 服 务 器 之 间 的 通信 。 这 部 分 内 容 见 本 童 后 面 

的 讨论 。 
。FTP: 文件 传输 协议 允许 浏览 远程 计算 机 上 的 目录 ， 以 及 通过 连接 将 文件 从 一 台 计 算 机 传输 
到 另 一 台 计算 机 。 

"telnet;， telnet 利 用 终端 会 话 访问 远程 计算 机 。 

，SMTP: 简单 邮件 传输 协议 用 于 在 计算 机 之 间 发 送 邮件 。 

TCP 流 的 Java API TCP 流 的 Java 接 口 由 类 ServerSocket 和 Socket 给 出 。 

1) ServerSocket: 服务 器 使 用 该 类 在 服务 器 端口 上 创建 一 个 套 接 字 ， 以 便 监 听 客 户 的 connect 
请 求 。 它 的 accept 方 法 从 队列 中 获得 一 个 connect 请 求 ， 如 果 队 列 为 空 ， 它 就 会 阻塞 ， 直 到 有 消息 到 
达 队 列 为 止 。 执 行 accept 的 结果 是 一 个 Socket 实 例 一 一 该 套 接 字 可 用 于 访问 与 客户 通信 的 流 。 

2) Socket: 该 类 可 供 连接 的 一 对 进程 使 用 。 客 户 使 用 构造 函数 〈 需 指定 服务 器 的 DNS 主机 名 
和 端口 ) 创建 套 接 字 。 该 构造 函数 不 仅 创建 与 本 地 端口 相关 的 套 接 字 ， 而 且 将 套 接 字 连 接 到 指定 
的 远程 计算 机 和 端口 号 。 如 果 主 机 名 错误 它 会 抛 出 UnknownHostException 异 常 ， 如 果 发 生 IO 错误 ， 
它 会 抛 出 IOException 异 常 。 

Socket 类 提供 了 getInputStream 和 getOutputStream 方 法 用 于 访问 与 套 接 字 相关 的 两 个 流 。 这 些 
方法 的 返回 类 型 分 别 是 InputStream 和 OutputStream， 即 定义 了 读 写 字 节 的 方法 的 抽象 类 。 返 回 值 可 
作为 合适 的 输入 输出 流 的 构造 函数 的 参数 。 我 们 的 例子 使 用 DatalnputStream 和 DataOutputStream ， 
它们 允许 简单 数据 类 型 的 二 进 制 表 示 能 以 与 机 器 无 关 的 方式 读 写 。 

图 4-5 给 出 了 一 个 客户 程序 ， 其 中 main 方 法 的 参数 提供 了 一 个 消息 和 服务 器 的 DNS 主 机 名 。 客 
户 创建 了 一 个 绑 定 到 主机 名 和 服务 器 端口 7896 的 套 接 字 。 它 从 套 接 字 的 输入 和 输出 流 生 成 
DatalnputStream 和 DataOutputStream， 然 后 将 消息 写 人 它 的 输出 流 ， 并 等 待 从 它 的 输入 流 中 读 取 应 
答 。 图 4-6 中 的 服务 器 程序 打开 其 服务 器 端口 (7896) 的 服务 器 套 接 字 ， 监 听 connect 请 求 。 当 有 请 
求 到 达 时 ， 就 生成 新 线程 用 于 与 客户 通信 。 新 线程 从 它 套 接 字 的 输入 和 输出 流 中 创建 
DatalnputStream 和 DataOutputStream， 然 后 等 待 读 取 消息 并 将 其 写 回 。 

因为 消息 由 串 组 成 ， 客 户 进程 和 服务 器 进程 使 用 DataOutputStream 的 writeUTEF 方 法 将 消息 写 入 
输出 流 ， 使 用 DatainputStream 的 readUTF 方 法 从 输入 流 中 读 取 消息 。UTF-8 是 表示 串 的 特定 格式 编 
码 ， 参 见 4.3 节 的 描述 。 

当 一 个 进程 关闭 它 的 套 接 字 后 ， 它 将 不 再 能 够 使 用 它 的 输入 和 输出 流 。 数 据 的 目的 进程 能 从 
它 的 队列 中 读 取 数 据 ， 但 在 队列 为 空 后 进行 读 操作 会 产生 EOFException 异 常 。 试 图 使 用 一 个 关闭 
的 套 接 字 或 向 一 个 中 断 的 流 中 写 信息 都 会 产生 IOException 异 常 。 
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import java.net.*, 
import java.io.*; 
public class TCPClient { 
public static void main {String args[]) { 
// arguments supply message and hostname of destination 
Socket s = null; 
ry{ 
int serverPort = 7896; 
$= new Socket({args[ 1], serverPort); 
DatalnputStream in = new DatalnputStreamt{ s.getInputStream()); 
DataOutputStream out = 
new DataOutputStream( s.getOutputStream()): 
out.writeUTF(args[0N); /1/ UTF is a string encoding see Sn 4.3 
String data = in.readUTH!(): 
System.out.printin( "Received: "+ data) ; 
Jcatch (UnknownHostException ej){ 
System.out.printin( "Sock: "te.getMessage{ )); 
Jcaitch (EOF Exception eX System.out.printIn("EOF: "+e.getMessage{ )); 
Jcatch {IOException ej{ System.out.printin( "IO: "+e.getMessage()); 
finally {iffs!=null) try {s.closel );}catch (IOException e}{/*close failed*/}} 








图 4-5 TCP 客 户 与 服务 器 建立 连接 ， 发 送 请 求 并 接收 应 答 





import java.net.*; 
import java.io.*, 
public class TCPServer { 
public static void main (String args[]){ 
wry{ 
int serverPort = 7896; 
ServerSocket listenSocket = new ServerSocket(serverPort); 
while(true) { 
Socket clientSocket = listenSocket.accept( ); 
Connection ¢ = new Connection{clientSocket); 
2} 
} catch(IOException e) {System.out.printIn( "Listen : "+e.getMessage());} 
2 
2 
class Connection extends Thread { 
DatalnputStream in; 
DataOutputStream out: 
Socket clientSocket; 
public Connection {Socker aClientSocket) { 
ry{ 
clientSocket = aClientSocket; 
in = new DatalnputStream{ clientSocket.getInputStream( )); 
Out =new DataOutputStream({ clientSocket.getOutputStream( )); 
this.start( ); 
} catch(IOException e) {System.out.printin( "Connection: "+e.getMessage( )):} 
2} 
public void run( }{ 
ry{ . /an echo server 
String data = in.readUTF():; 
Out.writeUTF( data); 
J catch{ EOFException e) {System.out.println( "EOF: "te.getMessage()); 
2 catch{IOException e) {System.out.printIn( "IO: "+e.getMessage()); 
pfinally{ try {clientSocket.close();}catch (OException e}{/*close failed*/}} 
} 
2 





图 4-6 TCP 服 务 器 为 每 个 客户 建立 连接 ， 然 后 回应 客户 的 请 求 
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4.3 外 部 数据 表示 和 编码 


存储 在 运行 的 程序 中 的 信息 都 表示 成 数据 结构 ， 如 相互 关联 的 对 象 集合 ， 而 消息 中 的 信息 由 
字 节 序列 组 成 。 不 论 使 用 何 种 通信 形式 ， 数 据 结构 在 传输 前 必须 “ 打 平 ”( 转 换 成 字 节 序列 )， 到 
达 目 的 地 后 重 构 。 在 消息 中 传送 的 单个 简单 数据 项 可 以 是 不 同类 型 的 数据 值 ， 不 是 所 有 的 计算 机 
以 同样 的 顺序 存储 整数 这 样 的 简单 值 。 浮 点 数 的 表示 也 随 体系 结构 的 不 同 而 不 同 。 表 示 整 数 的 顺 
序 有 两 种 方法 : 所 谓 的 大 序 法 排序 ， 即 最 高 有 效 字 节 排 在 前 面 ， 和 小 序 法 排序 ， 即 最 高 有 效 字 节 
排 在 后 面 。 另 一 个 问题 是 用 于 表示 字符 的 代码 集 ， 例 如 ， 系 统 ( 如 UNIX) 上 的 大 多 数 应 用 使 用 
ASCI 字 符 编码 ， 每 个 字符 占 一 字 节 ， 但 是 Unicode 标 准 可 以 表示 许多 不 同 语言 的 文字 ， 每 个 字符 
占 两 字 节 。 

下 列 方法 可 用 于 使 两 台 计 算 机 交换 数据 值 : 

“ 值 在 传送 前 先 转换 成 一 致 的 外 部 格式 ， 然 后 在 接收 端 转换 成 本 地 格式 。 如 果 两 台 计 算 机 是 同 

一 类 型 ， 可 以 不 必 转 换 成 外 部 格式 。 

* 值 按照 发 送 端的 格式 传送 ， 同 时 传送 所 使 用 格式 的 标志 ， 如 果 需 要 ， 接 收 方 会 转换 该 值 。 

注意 ， 字 节 本 身 在 传送 过 程 中 不 改变 。 为 了 支持 RMI 或 RPC， 任 何 能 作为 参数 传递 或 作为 结果 
返回 的 数据 类 型 必须 被 “ 打 平 "， 单 个 的 简单 数据 值 以 一 致 的 格式 表示 。 表 示 数 据 结构 和 简单 值 的 
一 致 的 标准 称 为 外 部 数据 表示 。 

编码 是 将 多 个 数据 项 组 装 成 适合 消息 传送 的 格式 的 过 程 。 解 码 是 在 消息 到 达 后 分 解 消息 ， 在 
目的 地 生成 相等 的 数据 项 的 过 程 。 因 此 ， 编 码 是 将 结构 化 数据 项 和 简单 值 翻译 成 一 个 外 部 数据 表 
示 。 类 似 地 ， 解 码 是 从 外 部 数据 表示 生成 简单 值 ， 并 重建 数据 结构 。 

我 们 将 讨论 三 种 外 部 数据 表示 和 编码 的 方法 ， 

。CORBA 的 公共 数据 表示 ， 它 涉及 在 CORBA 的 远程 方法 调用 中 能 作为 参数 和 结果 传送 的 结构 

化 类 型 和 简单 类 型 的 外 部 表示 。 它 可 用 于 多 种 编程 语言 (参见 第 20 章 ) 。 

。Java 的 对 象 序列 化 ， 它 涉及 需要 在 消息 中 传送 或 存储 到 磁盘 上 的 单个 对 象 或 对 象 树 的 “ 打 平 ” 

和 外 部 数据 表示 。 它 仅 用 于 Java。 

“XML ( 即 扩展 标记 语言 )， 它 定义 了 表示 结构 化 数据 的 文本 格式 。 它 原本 用 于 包含 文本 自 描 
述 型 的 结构 化 数据 的 文档 ， 例 如 可 从 Web 访 问 的 文档 。 但 它 现在 也 用 于 在 Web 服 务 中 被 客户 
和 服务 器 交换 的 消息 中 的 数据 (参见 第 19 章 )。 

在 前 两 种 情况 下 ， 编 码 和 解码 活动 均 由 中 间 件 层 完成 ， 不 涉及 任何 一 方 的 应 用 程序 员 。 即 使 
在 XML 的 情况 下 (XML 是 文本 的 ， 因 此 更 容易 处 理 编码 ) ， 编 码 和 解码 软件 也 对 所 有 平台 和 编程 
环境 可 用 。 因 为 编码 要 求 考 虑 组 成 组 合 对 象 的 简单 组 件 的 表示 细节 ， 所 以 如 果 手 工 完 成 该 过 程 ， 
那么 整个 过 程 很 容易 出 错 。 简 洁 性 是 设计 自动 生成 型 编码 程序 要 考虑 的 另 一 个 问题 。 

在 前 两 个 方法 中 ， 简 单数 据 类 型 被 编码 成 二 进 制 形 式 。 在 第 三 个 方法 (XML) 中 ， 简 单数 据 
类 型 表示 成 文本 。 通 常 ， 数 据 值 的 文本 表示 将 比 等 价 的 二 进 制 表示 更 长 。4.4 节 描述 的 HTTP 协 议 是 
文本 方法 的 另 一 个 例子 。 

与 编码 方法 设计 有 关 的 另 一 个 问题 是 被 编码 数据 是 否 应 该 包括 与 其 内 容 的 类 型 有 关 的 信息 。 
例如 ，CORBA 的 表示 只 包括 所 传送 的 对 象 的 值 ， 不 包含 它们 的 类 型 。 另 一 方面 ，Java 序 列 化 和 
XML 都 包括 了 类 型 信息 ， 但 表示 方式 不 同 。Java 把 所 有 需要 的 类 型 信息 放 到 序列 化 后 的 格式 中 。 
但 XML 文档 可 以 指向 名 字 (和 类 型 ) 的 外 部 定义 集合 ， 即 名 字 空 间 。 

虽然 我 们 对 RMI、RPC 的 参数 和 结果 的 外 部 数据 表示 感 兴趣 ， 但 将 数据 结构 、 对 象 或 结构 化 文 
档 转换 成 适合 消息 传送 或 文件 存储 的 格式 更 为 常用 。 
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4.3.1 CORBA 的 公共 数据 表示 

CORBA 的 公共 数据 表示 (Common Data Representation, CDR ) 是 CORBA 2.0[OMG 2004a] 定 
义 的 外 部 数据 表示 。CDR 能 表示 所 有 在 CORBA 远 程 调用 中 用 作 参 数 和 返回 值 的 数据 类 型 。 其 中 有 
15 个 简单 类 型 ， 包 括 short (16 比 特 )、long (32 比 特 ) 、unsigned short、unsigned long、float (32 比 
特 )、double (64 比 特 )、char、boolean (TRUE、FALSE)、octet (8 比特 ) 和 any ( 它 可 表示 任何 
基本 类 型 或 构造 类 型 ) ， 此 外 还 有 一 套 复合 类 型 ， 参 见 图 4-7。 远 程 调用 中 每 个 参数 或 结果 表示 成 调 
用 消息 或 结果 消息 中 的 字 节 序列 。 














类 型 表 示 

sequence 长 度 (无 符号 长 整 型 )， 后 面 依次 是 元 素 
string 长 度 (无 符号 长 整 型 )， 后 面 依 次 是 字符 (可 以 有 宽 字 符 ) 
array 依次 是 数组 元 素 (不 用 指定 长 度 ， 因 为 它 是 固定 的 ) 

struct 按 组 成 部 分 声明 的 顺序 表示 

enumerated 无 符号 长 整 型 ( 值 按照 声明 的 顺序 指定 ) 

union 类 型 标签 ， 后 面 是 所 选中 的 成 员 








图 4-7 结构 化 类 型 的 CORBA CDR 


简单 类 型 ，CDR 定 义 了 大 序 法 排序 和 小 序 法 排序 的 表示 。 值 按 发 送 端 消息 中 指定 的 顺序 传送 ， 
接收 端 如 果 要 求 不 同 的 顺序 就 要 进行 翻译 。 例 如 ，16 比 特 short 类 型 数据 在 消息 中 占 两 个 字 节 ， 若 
用 大 序 法 排序 ， 最 高 有 效 位 占 第 一 个 字 节 ， 基 低 有 效 位 占 第 二 个 字 节 。 每 个 简单 类 型 值 根据 它 的 
大 小 顺序 放 在 字 节 序列 中 。 假 设 字 节 序列 的 下 标 最 小 为 零 ， 那 么 n 字 节 大 小 (其 中 n=1，2，4，8) 
的 简单 类 型 值 将 附加 到 字 节 流 序列 中 为 n 的 倍数 的 下 标 处 ， 浮 点 值 尊 循 IEEE 标 准 ， 其 中 符号 、 指 数 
和 小 数 部 分 按 大 序 法 依次 放 在 字 节 0 ~n 处 ， 按 小 序 法 排序 则 要 反 过 来 放 。 字 符 用 客户 和 服务 器 均 
同意 的 代码 集 表示 。 

结构 化 类 型 : 组 成 每 个 结构 化 类 型 的 简单 类 型 值 按 特定 的 顺序 (如 图 4-7 所 示 ) 加 到 字 节 序 
列 中 。 

图 4-8 给 出 了 CORBA CDR 表 示 的 一 个 Struct 消 息 ， 它 包含 三 个 域 ， 三 个 域 的 类 型 分 别 是 string、 
string 和 unsigned long。 图 中 给 出 了 每 行 有 4 个 字 节 的 字 节 序列 。 每 个 囊 的 表示 由 一 个 表示 长 度 的 
unsigned long， 后 跟 串 中 的 字符 组 成 。 为 简单 起 见 ， 我 们 假设 每 个 字符 只 占 一 个 字 节 。 变 长 数据 
用 零 填充 ， 以 便 形成 标准 格式 ， 从 而 比较 编码 数据 或 它 的 校 验 和 。 注 意 ， 每 个 unsigned long 占 四 
个 字 节 ， 其 开始 位 置 在 一 个 4 的 倍数 的 下 标 处 。 图 4-8 没 有 区 分 大 序 法 排序 和 小 序 法 排序 。 虽 然 图 
4-8 中 的 例子 比较 简单 ， 但 CORBA CDR 能 表示 任何 不 使 用 指针 的 由 简单 类 型 和 结构 化 类 型 组 成 的 
数据 结构 。 

字 节 序列 中 的 下 标 - 咕 4 字 节 一 > 注释 
0~3 串 的 长 度 


'Smith' 











串 的 长 度 
London' 





unsigned long 








打 平 的 格式 表示 值 为 {Smith',London',1934} 的 Person 结 构 。 
图 4-8 CORBA CDR 消息 





外 部 数据 表示 的 另 一 个 例子 是 Sun XDR 标 准 ， 该 标准 在 RFC 1832 中 指定 [Srinivasan 1995b]， 
其 描述 见 www.cdk4.net/ipc。 它 由 Sun 公 司 开 发 ， 用 于 Sun NFS 中 客户 和 服务 器 之 间 的 消息 交换 ( 参 
见 第 8 章 ) 。 
CORBA CDR 或 Sun XDR 标 准 均 没有 在 消息 的 数据 表示 中 给 出 数据 项 类 型 。 这 是 因为 它 假定 发 
送 方 和 接收 方 对 消息 中 数据 项 的 类 型 和 顺序 有 共识 。 特 别 是 对 RMI 或 RPC， 每 个 方法 调用 传递 特定 
类 型 的 参数 ， 而 结果 也 是 特定 类 型 的 值 。 
CORBA 中 的 编码 ”根据 在 消息 中 传送 的 数据 项 类 型 的 规约 ， 可 以 自动 生成 编码 操作 。 数 据 结 
构 的 类 型 和 基本 数据 项 类 型 用 CORBA IDL 描 述 ( 见 20.2.3 节 )，IDL 提 供 了 描述 RMI 方 法 的 参数 类 
型 和 结构 类 型 的 表示 法 。 例 如 ， 我 们 可 以 用 CORBA IDL 描 述 图 4-8 中 消息 的 数据 结构 : 147 
struct Person{ 
string name; 
string place; 
unsigned long year; 
大 
CORBA 接 口 编译 器 (参见 第 5 章 ) 根据 远程 方法 的 参数 类 型 和 结果 类 型 定义 为 参数 和 结果 生 
成 适当 的 编码 和 解码 操作 。 


4.3.2 Java 对 象 序列 化 


在 Java RMI 中 ， 对 象 和 简单 数据 值 都 可 以 作为 方法 调用 的 参数 和 结果 传递 。 一 个 对 象 是 一 个 
Java 类 的 实例 。 例 如 ， 与 CORBA IDL 中 定义 的 Person struct 作 用 相当 的 Java 类 是 ， 

public class Person implements Serializable { 

private String name; 

privare String place; 

Private int year; 

public Person {String aName, String aPlace, int aYear}H{ 
name=aName; 
place=aPlace; 
year=aYear; 

2} 

//followed by methods for accessing the instance variables 

2} 

上 面 的 类 表明 它 实现 了 Serializable 接 口 ， 该 接口 没有 方法 。 表 明 -一 个 类 实现 了 Serializable 接 口 
(该 接口 在 java.io 包 中 提供 ) 意味 着 它 的 实例 能 被 序列 化 。 

在 Java 中 ， 术 语序 列 化 指 的 是 将 一 个 对 象 或 一 组 有 关联 的 对 象 打 平 成 适合 于 磁盘 存储 或 消 
息 传送 的 串 行 格式 ， 例 如 RMI 中 的 参数 或 结果 。 解 序列 化 是 指 从 串 行 格式 中 恢复 对 象 或 一 组 对 
象 的 状态 。 它 假设 进行 解 序列 化 的 进程 事先 不 知道 序列 化 格式 中 对 象 的 类 型 。 因 此 ， 关 于 每 个 
对 象 类 的 一 些 信息 要 包含 在 序列 化 格式 中 。 这 些 信息 使 得 接收 方 在 解 序列 化 对 象 时 能 装载 恰当 
的 类 。 

类 的 信息 由 类 名 和 版 本 号 组 成 。 当 类 有 大 的 改动 时 要 修改 版 本 号 。 它 可 由 程序 员 设 置 或 自动 
根据 类 名 、 它 的 实例 变量 、 方 法 和 接口 的 名 字 的 散 列 值 计算 ， 解 序列 化 对 象 的 进程 能 检查 它 的 类 
版 本 是 否 正确 。 

Java 对 象 可 以 包含 对 其 他 对 象 的 引用 。 当 对 象 序列 化 时 , 它 引 用 的 所 有 对 象 也 随 它 一 起 序列 化 ， 
以 确保 对 象 在 目的 地 重 构 时 它 引 用 的 对 象 也 能 恢复 。 引 用 被 序列 化 成 句柄 一 一 在 这 种 情况 下 ， 句 柄 
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是 在 序列 化 格式 内 对 一 个 对 象 的 引用 ， 例 如 句柄 可 以 是 正 整数 序列 中 的 下 一 个 数字 。 序 列 化 过 程 
必须 确保 对 象 引用 和 句柄 之 间 是 一 一 对 应 的 。 它 也 必须 确保 每 个 对 象 只 能 写 一 次 一 一 在 对 象 第 二 次 
出 现 及 之 后 再 出 现时 ， 写 人 句柄 而 不 是 对 象 。 

为 了 序列 化 一 个 对 象 ， 要 写 出 它 的 类 信息 ， 随 后 是 实例 变量 的 类 型 和 名 字 ， 如 果实 例 变 量 属 
于 新 的 类 ， 那 么 要 写 出 它们 所 属 的 新 类 的 类 信息 ， 随 后 是 新 类 的 实例 变量 的 类 型 和 名 字 。 这 个 递 
归 过 程 一 直 进 行 到 所 有 必须 的 类 的 类 信息 和 实例 变量 的 类 型 和 名 字 都 被 写 出 为 止 。 每 个 类 都 有 一 
个 句柄 ， 没 有 一 个 类 会 多 次 写 人 字 节 流 一 一 在 需要 的 地 方 会 写 人 句柄。 

整 型 、 字 符 型 、 布 尔 、 字 节 和 长 整 型 这 样 的 简单 类 型 的 实例 变量 的 内 容 可 用 
ObjectOutputStream 类 的 方法 写成 一 个 可 移植 的 二 进 制 格式 。 字 符 串 和 字符 使 用 writeUTEF 方 法 写 人 ， 
该 方法 使 用 通用 传输 格式 (UTF-8)，UTF 依 旧 用 一 个 字 节 表示 ASCII 字 符 ， 而 用 多 个 字 节 表示 
Unicode 字 符 。 字 符 串 前 面 是 串 占据 的 字 节 数 。 

作为 一 个 例子 ， 考 虑 下 列 对 象 的 序列 化 : 

Person p=new Person{ "Smith", "London",1934); 

序列 化 后 的 格式 见 图 4-9， 图 中 省 略 了 完整 序列 化 格式 中 的 句柄 的 值 和 表示 对 象 、 类 、 串 和 其 
他 对 象 的 类 型 标识 符 的 值 。 第 一 个 实例 变量 (1934) 是 有 固定 长 度 的 整数 ， 第 二 个 和 第 三 个 实例 
变量 是 串 ， 串 的 前 面 是 它们 的 长 度 。 


序列 化 值 解释 











Person 8 字 节 的 版 本 号 ho 类 名 、 版 本 号 
实例 变量 的 个 数 ， 
t .lang. Stri lang.S | 
PY “epeee 类 型 和 名 字 





真正 的 序列 化 格式 还 包含 类 型 标识 和 罕 ; h0 和 hl 是 后 杨 。 
图 4-9 Java 的 序列 化 格式 表示 


为 了 利用 Java 序 列 化 对 Person 对 象 序列 化 ， 要 创 建 类 ObjectOutputStream 的 实例 ， 并 以 Person 
对 象 为 参数 调用 它 的 writeObject 方 法 。 要 从 数据 流 中 解 序列 化 一 个 对 象 ， 应 在 流 上 打开 一 个 
ObjectInputStream， 用 它 的 readObject 方 法 重 构 原 来 的 对 象 。 这 一 对 类 的 使 用 与 图 4-5 和 图 4-6 中 说 
明 的 DataOutputStream 和 DatalnputStream 类 似 。 

远程 调用 的 参数 和 结果 的 序列 化 及 解 序列 化 通常 由 中 间 件 自动 完成 ， 不 需要 应 用 程序 员 参 与 。 
如 果 有 特殊 需求 ， 程 序 员 可 以 自己 编写 读 写 对 象 的 方法 。 详 细 内 容 请 参阅 有 关 对 象 序列 化 的 教程 
Dava.sun.com H] 了解 如 何 自己 编写 方法 并 获取 Java 序 列 化 的 更 多 信息 。 程 序 员 修 改 序列 化 效果 的 
另 一 种 方法 是 将 不 应 该 被 序列 化 的 变量 声明 为 transient。 对 本 地 资源 (如 文件 、 套 接 字 ) 的 引用 就 
不 应 该 被 序列 化 。 

反射 的 使 用 Java 语 言 支持 反射 一 一 查询 类 属性 (如 类 实例 变量 和 方法 的 名 字 及 类 型 ) 的 能 力 。 
反射 实现 了 根据 类 名 创建 类 ， 以 及 为 给 定 的 类 创建 具有 给 定 参数 类 型 的 构造 函数 。 反 射 使 得 以 完 
全 通用 的 方式 进行 序列 化 和 解 序列 化 成 为 可 能 ， 这 意味 着 没有 必要 像 CORBA 那 样 为 每 种 对 象 类 型 
生成 特殊 的 编码 函数 。 关 于 反射 的 更 多 信息 请 参见 Flanagan[2002]。 

Java 对 象 序列 化 使 用 反射 找到 要 序列 化 的 对 象 的 类 名 , 以 及 该 类 的 实例 变量 的 名 字 、 类 型 和 值 。 
这 是 序列 化 格式 所 需 的 全 部 信息 。 

对 解 序列 化 而 言 ， 序 列 化 格式 中 的 类 名 用 于 创建 类 。 然 后 用 类 名 创建 一 个 新 的 构造 函数 ， 它 
具有 与 指定 在 序列 化 格式 中 的 类 型 相应 的 类 型 。 最 后 ， 新 的 构造 函数 用 于 创建 新 的 对 象 ， 其 实例 
变量 的 值 是 从 序列 化 格式 中 读 取 的 。 
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4.3.3 可 扩展 标记 语言 

可 扩展 标记 语言 (Extensible Markup Language, XML ) 是 万 维 网 联盟 (W3C) 定义 的 可 在 
Web 上 通用 的 标记 语言 。 通 常 ， 术 语 标记 语言 指 的 是 一 种 文本 编码 ， 用 于 表示 正文 和 关于 正文 结 
构 或 外 观 的 细节 。XML 和 HTML 都 是 从 一 种 非常 复杂 的 标记 语言 SGML (标准 化 的 通用 标记 语言 ) 
[ISO 8879] 派 生出 来 的 。HTML ( 见 1.3.1 节 ) 用 于 定义 Web 页 面 的 外 观 ， 而 XML 用 于 编写 Web 上 的 
结构 化 文档 。 

XML 数 据 项 以 “标记 ”上 串 做 标签 ， 标 记 用 于 描述 数据 的 逻辑 结构 ， 并 将 属性 一 值 对 与 逻辑 结 
构 关联 起 来 。 也 就 是 说 ， 在 XML 中 ， 标 记 与 它们 围 起 来 的 正文 结构 相关 ， 而 在 HTML 中 ， 标 记 指 
定 浏览 器 如 何 显示 正文 。 关 于 XML 规 约 ， 请 参见 W3C 提 供 的 关于 XMIL 的 网 页 [www.w3.org VI]。 

XML 用 于 实现 客户 与 Web 服 务 的 通信 以 及 定义 Web 服 务 的 接口 和 其 他 属性 。 不 过 ，XML 也 可 
用 于 其 他 方面 。 它 可 用 于 存档 和 检索 系统 一 一 尽管 一 个 XML 存档 文件 比 一 个 二 进 制 文件 要 大 ， 但 
它 的 优势 在 于 可 在 任意 -一 台 计 算 机 上 阅读 。 其 他 使 用 XML 的 例子 包括 用 户 界面 的 规约 和 操作 系统 
中 对 配置 文件 的 编码 。 

XML 是 可 扩展 的 ， 这 意味 着 用 户 能 定义 自己 的 标记 ， 这 点 与 HTML 不 同 ，HTML 只 能 使 用 固 
定 的 标记 集合 。 如 果 打 算 将 一 个 XML 文档 用 于 多 个 应 用 ， 那 么 标记 的 名 字 必 须 在 这 些 应 用 中 达成 
一 致 。 例 如 ， 客 户 通常 使 用 SOAP 消 息 与 Web 服 务 通信 。SOAP (参见 19.2.1 节 ) 具有 XML 格式 ， 
其 中 的 标签 专门 用 于 Web 服 务 和 它 的 客户 。 

一 些 外 部 数据 表示 (如 CORBA CDR) 不 一 定 是 自 描述 的 ， 因 为 它 假设 客户 和 服务 器 对 要 交换 
的 消息 具有 人 先 验 的 知识 ， 知 道 消息 所 包含 的 信息 的 顺序 和 类 型 。 不 过 ，XML 原 本 希望 供 多 个 应 用 
使 用 ， 并 可 用 于 不 同 的 和 目的。 提供 标记 以 及 定义 标记 含义 的 名 字 空 间 就 是 为 了 使 上 述 目 的 成 为 可 
能 。 另 外 ， 标 记 的 使 用 使 得 应 用 可 选择 它 需要 处 理 的 部 分 ， 增 加 与 其 他 应 用 相关 的 信息 ， 并 不 影 
响 原 有 应 用 。 

因为 XMIL 文 档 是 文本 形式 的 ， 所 以 人 人 可 读 。 通 常 ， 大 多 数 XML 文 档 由 XML 处 理 软 件 生 成 并 
读 取 ， 但 是 读 XML 的 能 力 在 出 错 的 时 候 更 有 用 。 另 外 ， 文 本 的 使 用 使 得 XML 独 立 于 某 个 平台 。 使 
用 文本 (而 不 是 二 进 制 表示 ) 和 标记 会 使 消息 变 得 更 大 ， 因 而 需要 更 长 的 时 间 处 理 和 传输 ， 也 需 
要 更 大 空间 进行 存储 。19.2.4 节 比较 SOAP XML 格式 的 
消息 和 CORBA CDR 格 式 消息 的 效率 。 不 过 ， 文件 和 消 “person 1d= "123456780"> 


息 能 被 压缩 一 HTTP 1.1 允 许 对 数据 进行 压缩 ， 从 而 地 ee 

省 传输 的 带宽 。 <year>1934</year> 
XML 元 素 和 属性 图 4-10 给 出 了 Person 结 构 的 XML </-- a comment --> 

定义 ， 这 个 结构 用 于 说 明 CORBA CDR 和 Java 中 的 编码 </person > 

功能 。 它 说 明 XML 由 标记 和 字符 数据 组 成 。 字 符 数据 


(例如 ，Smith 或 1934) 是 实际 的 数据 。 类 似 HTML， 本 0 用 XML 定 义 的 Person 结 构 
XML 文 档 的 结构 由 包含 在 一 对 尖 括 号 内 的 标记 定义 。 在 上 面 的 例子 中 ，<name> 和 <place> 都 是 标 
记 。 与 HTML-- 样 ， 良 好 的 布局 通常 可 以 提高 可 读 性 。XML 中 注释 的 表示 方法 和 HTML 一 样 。 
元 素 : XML 中 的 元 素 由 匹配 的 开始 标记 和 结束 标记 包围 的 字符 数据 组 成 。 例 如 ， 图 4-10 中 的 
一 个 元 素 由 包含 在 <name>…</name> 标 记 对 中 的 数据 Smith 组 成 。 注 意 ， 具有 <name> 标 记 的 元 素 包 
含 在 具有 <person id=“123456789”>…</person> 标 记 对 的 元 素 中 。 一 个 元 素 包 含 其 他 元 素 的 能 力 
使 得 XML 具 有 表示 层次 数据 的 能 力 一 一 这 是 XML 一 个 非常 重要 的 方面 。 一 个 空 标记 没有 内 容 ， 用 
/> 表示 结束 (而 不 是 用 >)。 例 如 ，<person>…</person> 标 签 可 以 包括 个 空 标记 <european/>。 
属性 : 一 个 开始 标记 可 以 选择 性 地 包含 关联 的 属性 名 和 属性 值 对 , 例如 上 述 的 id="123456789"。 
属性 的 语法 与 HTML 的 语法 一 样 ， 其 中 属性 名 后 面 跟 着 一 个 等 号 和 用 引号 括 起 来 的 属性 值 。 多 个 属 
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性 值 用 空格 分 开 。 

把 哪些 项 表示 成 元 素 哪 些 项 表示 成 属性 要 进行 选择 。 元 素 通常 是 一 个 数据 容器 ， 而 属性 用 于 
标记 数据 。 在 我 们 的 例子 中 ，123456789 可 以 是 应 用 程序 使 用 的 标识 符 ， 而 name、place 或 year 是 需 
要 显示 的 。 如 果 数 据 包含 子 结构 或 多 行 信息 ， 那 么 它 必须 被 定义 成 元 素 ， 简 单 值 定义 成 属性 。 

名 字 : XML 中 的 标记 名 和 属性 名 通常 以 字母 开始 ， 也 可 以 以 下 划 线 或 冒号 开始 。 名 字 首 字符 
后 可 以 是 字母 、 数 字 、 连 字符 、 下 划 线 、 冒 号 或 句号 。 名 字 中 的 字母 是 区 分 大 小 的 ， 以 xml 开 始 的 
名 字 是 保留 字 。 

二 进 制 数据 ; XML 元 素 中 所 有 的 信息 必须 被 表示 成 字符 数据 。 但 问题 是 ， 我 们 如 何 表示 加 密 
的 元 素 或 安全 的 散 列 值 ? 这 两 者 将 用 于 19.5 节 介绍 的 XML 安全 性 中 。 答 案 是 它们 可 以 用 base64 表 示 
法 表示 [Fred and Borenstein 1996]， 这 种 方法 仅 用 字母 数字 和 具有 特殊 意义 的 +、/、= 表 示 。 

解析 和 良 构 的 文档 ”XML 文档 必须 是 良 构 的 ， 即 它 的 结构 必须 符合 规则 。 一 个 基本 的 规则 是 
每 个 开始 标记 都 要 有 一 个 匹配 的 结束 标记 。 另 一 个 基本 的 规则 是 所 有 标记 要 正确 从 套 ， 例 如 ，<x> 
…<y>…</y>…</xX> 是 正确 的 ， 而 <x>…<y>…</x>…</y> 是 不 正确 的 。 最 后 ， 每 个 XML 文档 必须 
有 一 个 包围 其 他 元 素 的 根 元 素 。 这 些 规则 对 实现 XML 文档 的 解析 器 而 言 是 非常 简单 的 。 当 解析 器 
读 到 一 个 非 良 构 的 XML 文档 时 ， 它 将 报告 一 个 致命 的 错误 。 

CDATA : XML 解析 器 通常 分 析 元 素 的 内 容 ， 因 为 它们 可 能 包含 身 套 的 结构 。 但 如 果 文 本 需要 
包含 一 个 尖 插 号 或 引号 ， 那 么 它 必 须 以 特殊 的 方式 表示 ， 例 如 ，&lt 表 示 左 尖 括 号 。 但 如 果 因 为 某 
种 原因 ， 不 需要 解析 某 个 部 分 ， 例 如 ， 它 包含 了 特殊 的 字符 ， 那 么 它 可 以 表示 成 CDATA。 例 如 ， 
如 果 一 个 场地 的 名 字 中 包含 了 一 个 撤 号 ， 那 么 可 以 用 下 面 两 种 方式 之 一 指定 : 

<place> King &apos Cross </place> 

<place> <![CDATA[King's Cross]]></place> 

XML 序言 : 每 个 XML 文档 必须 在 它 的 第 一 行 包含 一 个 序言 。 序 言 必 须 至 少 指定 使 用 的 XML 版 
本 (当前 是 1.0)。 例 如 : 

<? XML version = "1.0" encoding="UTF-8" standalone = "yes"?> 

第 三 个 属性 用 于 说 明文 档 是 独立 的 还 是 依赖 于 外 部 定义 的 。 

编码 方式 : 序言 也 必须 指定 编码 方式 〈 软 认 编 码 是 UTF-8， 参 见 4.3.2 节 的 解释 ) 。 术 语 编码 方 
式 指 的 是 用 于 表示 字符 的 代码 集 一 -ASCH 是 我 们 最 熟知 的 例子 。 注 意 ， 在 XML 序言 中 ，ASCII 被 
指定 成 us-ascii。 其 他 可 能 的 编码 方式 包括 ISO-8859-1 (或 Latin-1) ， 它 也 是 一 种 8 位 编码 方式 ， 前 
128 个 值 是 ASCI 字 符 ， 其 他 字符 用 于 表示 西方 欧洲 语言 中 的 字符 。 其 他 8 位 编码 用 于 表示 其 他 字母 
表 〈 如 希腊 语 或 斯 拉夫 语 ) 。 

XML 和 名字 空间 ”通常 情况 下 ， 名 字 空 间 为 设 定名 字 的 作用 域 提 供 了 一 个 手段 。 一 个 XML 名 字 
空间 是 一 个 名 字 集 合 ， 通 过 URL 引 用 ， 用 于 一 组 元 素 类 型 和 属性 。 其 他 XML 文档 可 通过 引用 名 字 
空间 的 URL 使 用 该 名 字 空 间 。 

利用 XML 名 字 空 间 的 元 素 将 名 字 空 间 指定 成 名 为 xmlns 的 属性 ， 该 属性 的 值 是 一 个 URL， 指 向 
包含 名 字 空 间 定 义 的 文件 。 例 如 : 

xmins:pers = "htip://www.cdk4.net/person" 
xmlns 后 面 的 名 字 (这 里 是 pers) 可 以 作为 一 个 前 级 ， 指 向 某 个 名 字 空 间 中 的 元 素 ， 如 图 4-11 所 示 。 
pers 前 织 在 person 元 素 中 被 绑 定 到 http://www.cdk4.net/person。 一 个 名 字 空 间 的 应 用 范围 为 开标 记 
和 闭 标记 所 确定 的 范围 内 ， 除 非 被 一 个 内 含 的 名 字 空 间 定 义 取代 。 一 个 XML 文 档 可 能 定义 有 多 个 
不 同 的 名 字 空 间 ， 每 个 名 字 空 间 用 其 唯一 的 前 级 引用 。 

名 字 空 间 的 约定 允许 一 个 应 用 程序 利用 不 同名 字 空 间 中 的 多 个 外 部 定义 ， 而 不 存在 名 字 冲 突 
的 风险 。 
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<person pers:id="]23456789" xmins:pers = "http://www.cdk4.net/person"> 
<pers:name> Smith </pers:name> 
<pers:place> London </pers:place > 
<pers:year> 1934 </pers:year> 


</person> 





图 4-11 在 Person 结 构 中 使 用 名 字 空 间 
XML 模式 ”一 个 XML 模式 [www.w3.org VII] 定 义 了 在 文档 中 出 现 的 元 素 和 属性 、 元 素 如 何 符 
、 元 素 的 顺序 及 个 数 、 元 素 是 否 为 空 或 能 否 包含 文本 等 。 对 于 每 个 元 素 ， 它 定义 了 类 型 和 默认 
。 图 4-12 给 出 了 一 个 模式 的 例子 ， 它 定义 了 图 4-10 所 示 的 person 结 构 的 XML 定义 的 数据 类 型 和 结 


茧 庙 上 


目的 是 单个 模式 定义 可 被 多 个 不 同 的 文档 共享 。 一 个 XML 文档 遵循 某 个 模式 定义 ， 那 么 可 通 
过 这 个 模式 进行 验证 。 例 如 ，SOAP 消 息 的 发 送 者 可 以 使 用 XML 模式 编码 消息 ， 接 收 者 将 用 相同 的 
XML 模式 进行 验证 并 解码 消息 。 

文档 类 型 定义 : 文档 类 型 定义 ( 即 DTD) [www.w3.org VH 是 作为 XML 1.0 规 约 的 一 部 分 提供 
的 ， 用 于 定义 XML 文档 的 结构 ， 目 前 仍 被 广泛 使 用 。DTD 的 语法 与 XML 的 其 他 部 分 不 一 样 ， 其 描 
述 能 力 比较 有 限 。 例 如 ， 它 不 能 描述 数据 类 型 ， 它 的 定义 是 全 局 的 ， 因 此 元 素 名 不 能 重复 。DTD 
不 用 于 定义 Web 服 务 ， 尽 管 它们 仍 可 以 用 于 定义 由 Web 服 务 传输 的 文档 。 

访问 XML 的 AP ”大 多 数 常用 的 编程 语言 有 可 用 的 XML 解析 器 和 生成 器 。 例 如 ， 将 Java 对 象 输 
出 成 XML ( 即 编码 ) 的 Java 软 件 和 从 类 似 结构 中 创建 Java 对 象 ( 即 解码 ) 的 软件 。Python 编 程 语言 
有 类 似 的 软件 用 于 Python 数据 类 型 和 对 象 。 





| <xsd:schema xmins:xsd = URL of XML schema definitions > 
<xsd:element name= "person" type ="persunType" /> 
<xsd:complexType name="personType"> 
<xsd:sequence> 
<xsd:element name = "name" type="xs:string"/> 
<xsd:element name = "place" type="xs:string "/> 
<xsd:element name = "year" type="xs:positivelnteger'"/> 


</xsd:sequence> 





<xsd:attribute name= "id 1ype = "xs:positivelnteger"/> 
</xsd:complexType> 
</xsd:schema> 


图 4-12 用 于 Person 结 构 的 XML 模 式 





4.3.4 远程 对 象 引用 


本 节 的 内 容 仅 适 用 于 诸如 Java 和 CORBA 这 样 的 支持 分 布 对 象 模型 的 语言 ， 与 XML 无 关 。 

客户 调用 远程 对 象 中 的 一 个 方法 时 ， 就 会 向 存放 远程 对 象 的 服务 器 进程 发 送 一 个 调用 消息 。 
这 个 消息 需要 指定 哪 一 个 对 象 具有 要 调用 的 方法 。 远 程 对 象 引用 是 远程 对 象 的 标识 符 ， 它 在 整个 
分 布 式 系统 中 有 效 。 远 程 对象 引 用 在 调用 消息 中 传递 ， 以 指定 调用 哪 一 个 对 象 。 第 5 章 将 介绍 远程 
对 象 引 用 也 作为 远程 方法 调用 的 参数 传递 并 作为 远程 方法 调用 的 结果 返回 ， 第 5 章 还 将 说 明 每 个 远 
程 对 象 有 一 个 远程 对 象 引用 ， 并 通过 比较 远程 对 象 引用 确定 它们 是 否 指向 同一 个 远程 对 象 。 现 在 
我 们 讨论 远程 对 象 引 用 的 外 部 表示 。 

远程 对 象 引 用 必须 以 确保 空间 和 时 间 唯 一 性 的 方法 生成 。 通 常 ， 在 远程 对 象 上 有 许多 进程 ， 
所 以 远程 对 象 引 用 在 分 布 式 系统 的 所 有 进程 中 必须 是 唯一 的 。 即 使 在 删除 与 给 定 远程 对 象 引用 相 
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关 的 远程 对 象 后， 该 远程 对 象 引用 也 不 能 被 重用 ， 因 为 潜在 的 调用 者 还 可 能 保留 着 过 期 的 远程 对 
象 引 用 ， 记 住 这 一 点 非常 重要 。 试 图 调用 已 删除 对 象 应 该 产生 一 个 出 错 信息 而 不 应 该 允许 访问 另 
一 个 对 象 。 

有 几 个 方法 可 以 确保 远程 对 象 引用 是 唯一 的 。 一 种 方法 是 通过 拼接 计算 机 的 因特网 地 址 、 创 
建 远程 对 象 引 用 的 进程 的 端口 号 、 创 建 时 间 和 本 地 对 象 编号 来 构造 远程 对 象 引 用 。 每 次 进程 创建 
一 个 对 象 ， 本 地 对 象 编号 就 增加 一 。 

端口 号 与 时 间 一 起 在 计算 机 上 产生 唯 的 进程 标识 符 。 利 用 这 种 方法 ， 远 程 对 象 引 用 可 用 图 
4-13 所 示 的 格式 表示 。 在 RM] 的 最 简单 实现 中 ， 远 程 对 象 仅 在 创建 它们 的 进程 中 存在 ， 并 只 在 该 进 
程 运行 时 存活 。 在 这 种 情况 下 ， 远 程 对 象 引 用 可 以 作为 远程 对 象 的 地 址 。 换 句 话说 ， 调 用 消息 被 
发 送 到 远程 引用 中 的 因特网 地 址 ， 并 传递 给 该 计算 机 上 使 用 给 定 端口 号 的 进程 。 


32 比 特 32 比 特 32 比 特 32 比 特 





图 4-13 远程 对 象 引用 的 表示 


为 了 使 远程 对 象 在 不 同 计算 机 的 不 同 进程 中 重 定位 ， 远 程 对 象 引 用 不 应 该 作为 远程 对 象 的 地 
址 使 用 。20.2.4 节 讨论 了 远程 对 象 引 用 的 一 种 格式 ， 它 允许 对 象 在 它 的 生命 周期 中 在 不 同 的 服务 器 
上 被 激活 。 

第 10 章 将 要 描述 的 对 等 覆盖 网 络 使 用 完全 与 位 置 无 关 的 远程 对 象 引 用 。 消 息 通过 一 个 分 布 式 
路 由 算法 路 由 到 资源 所 在 地 。 

图 4-13 中 远程 对 象 引 用 的 最 后 一 个 域 包含 关 于 远程 对 象 接口 的 信息 ， 例 如 接口 名 。 该 信息 与 
将 远程 对 象 引 用 接收 为 远程 调用 的 参数 或 结果 的 进程 有 关 ， 因 为 它 需 要 知道 由 远程 对 象 提供 的 方 
法 。 这 一 点 将 在 5.2.5 节 中 解释 。 


4.4 客户 一 服务 器 通信 


这 种 形式 的 通信 用 于 支持 典型 客户 一 服务 器 交互 中 的 角色 和 消息 的 交换 。 在 正常 的 情况 下 ， 
请 求 一 应 答 通信 和 是 同步 的 ， 因 为 客户 进程 将 一 直 阻 塞 ， 直 到 收 到 来 自 服务 器 的 应 答 为 止 。 请 求 一 
应 答 通信 也 是 可 靠 的 ， 因 为 来 自 服务 器 的 应 答 是 对 客户 的 有 效 确认 。 异 步 请 求 一 应 答 通信 和 是 另 一 
种 方法 ， 这 种 方法 当 客户 能 在 稍 后 取 回 应 答 时 很 有 用 一 一 参见 6.5.2 节 。 

虽然 当前 许多 实现 使 用 TCP 流 ， 但 下 面 根据 用 于 UDP 数 据 报 的 Java API 中 的 send 和 receive 操 作 
描述 客户 一 服务 器 信息 交换 。 在 数据 报 上 构造 的 协议 避免 了 与 TCP 流 协议 相关 的 不 必要 的 开销 ， 特 
别 是 : 

。 确 认 是 元 余 的 ， 因 为 应 答 紧 跟着 请 求 。 

。 除 了 进行 请 求 和 应 答 的 一 对 连接 之 外 ， 需 要 建立 与 两 对 额外 消息 有 关 的 连接 。 

。 对 大 多 数 仅 传递 少量 参数 和 结果 的 调用 ， 流 控制 是 元 余 的 。 

请 求 一 应 答 协议 下 列 协议 基于 三 个 通信 原 语 :; doOperation 、getRequest 和 sendReply， 如 图 4-14 
所 示 。 大 多 数 的 RMI 和 RPC 系 统 由 类 似 的 协议 支持 。 此 处 描述 的 协议 经 过 裁剪 可 支持 RMI， 因 为 针 
对 请 求 消息 中 调用 的 方法 ， 该 协议 可 为 该 方法 所 属 的 对 象 传 递 一 个 远程 对 象 引用 。 

这 种 特殊 设计 的 请 求 一 应 答 协议 将 请 求 和 应 答 匹 配 起 来 。 它 可 提供 一 定 的 传递 保证 。 如 果 使 
用 UDP 数据 报 ， 传 递 保 证 必须 由 请 求 一 应 答 协 议 提 供 ， 即 可 以 使 用 服务 器 应 答 消 息 作 为 客户 请 求 
消息 的 确认 。 图 4-15 概 述 了 这 三 个 通信 和 原 语 。 


了 服务 器 


getRequest 


选择 对 象 
执行 方法 
sendReply 





图 4-14 请 求 一 应 答 通信 


public byte[] doOperation( RemoteObjectRef o, int methodld, byte[] arguments) 


发 送 请 求 消息 到 远程 对 象 并 返回 应 答 。 参 数 指定 远程 对 象 、 要 调用 的 方法 和 该 方法 的 参数 。 
public byte[] getRequest(); 


通过 服务 器 端口 获得 客户 请 求 。 
public void sendReply(byte[] reply, InetAddress clientHost, int clientPort); 
发 送 应 答 消息 reply 到 该 因特网 地 址 和 端口 上 的 客户 。 





图 4-15 请 求 一 应 答 协议 的 操作 


客户 使 用 doOperation 方 法 调用 远程 操作 。 它 的 参数 指定 了 远程 对 象 和 要 调用 的 方法 以 及 该 方 
法 要 求 的 额外 的 信息 (参数 )。 它 的 结果 是 一 个 RMI 应 答 。 它 假设 调用 doOperation 的 客户 将 参数 编 
码 成 一 个 字 节 数组 ， 然 后 从 返回 的 字 节 数组 中 将 结果 进行 解码 。doOperation 的 第 一 个 参数 是 类 
RemoteObjectRef 的 实例 ， 它 可 以 用 图 4-13 所 示 的 格式 表示 远程 对 象 引 用 。 该 类 可 提供 方法 来 获得 
远程 对 象 所 在 的 服务 器 的 因特网 地 址 和 端口 。doOperation 方 法 发 送 一 个 请 求 消息 到 服务 器 ， 服 务 
器 的 因特网 地 址 和 端口 作为 参数 的 远程 对 象 引 用 指定 ， 在 发 送 请 求 消息 之 后 ，doOperation 调 用 
receive 获 得 一 个 应 答 消息 ， 并 从 中 抽取 结果 返回 给 调用 者 。doOperation 的 调用 者 将 一 直 阻 塞 ， 直 
到 服务 器 上 的 远程 对 象 完 成 所 请 求 的 操作 ， 然 后 将 应 答 消 息 传递 给 客户 进程 为 止 。 

GetRequest 被 服务 器 进程 用 于 获取 服务 请 求 ， 如 图 4-14 所 示 。 当 服务 器 调用 指定 对 象 的 方法 时 ， 
它 使 用 sendReply 发 送 应 答 消息 给 客户 。 当 客户 接收 到 应 答 消息 ， 原 来 的 doOperation 不 再 阻塞 ， 继 
续 执 行 客户 程序 。 

在 请 求 消息 或 应 答 消息 中 传送 的 信息 如 图 4-16 所 示 。 第 一 个 域 指出 消息 是 一 个 请 求 消息 还 是 
一 个 应 答 消息 。 第 二 个 域 RequestId 包 含 一 个 消息 标识 符 。 客 户 的 doOperation 为 每 个 请 求 消息 生成 
一 个 RequestId， 服 务 器 将 它们 拷贝 到 相应 的 应 答 消息 。 这 使 得 doOperation 能 检查 应 答 消息 是 当前 
请 求 的 结果 还 是 延迟 到 达 的 请 求 结果 。 第 三 个 域 是 按 图 4-10 所 示 格 式 编码 的 远程 对 象 引用 。 第 四 个 
域 是 要 调用 的 方法 的 标识 符 ， 例 如 ， 可 以 对 接口 中 的 方法 用 1 ，2，3，……: 编号 。 如 果 客户 和 服务 
器 均 使 用 支持 反射 的 语言 ， 那 么 该 方法 的 表示 可 以 放 在 这 个 域 中 一 一 在 Java 中 ， 方 法 的 实例 可 以 放 


在 该 域 D 
objectReference 
methodId 


图 4-16 请 求 一 应 答 消 息 的 结构 















int (0= 请 求 ，1 = 应答) 
int 

远程 对 象 引 用 
整数 或 方法 

字 节 数组 





702 彩 了 赣 





消息 标识 符 ” 任 何 涉及 消息 管理 以 提供 额外 的 诸如 可 靠 消息 传递 或 请 求 一 应 答 通 信 这 样 的 性 质 
的 机 制 均 要 求 每 个 消息 具有 唯一 的 消息 标识 符 ， 以 便 消息 被 引用 。 消 息 标识 符 由 两 部 分 组 成 ， 

1) requesttd， 由 发 送 进程 从 一 个 不 断 增 加 的 整数 序列 中 取出 。 

2) 发 送 进程 的 一 个 标识 符 ， 例 如 它 的 因特网 地 址 和 端口 。 

第 一 部 分 确保 标识 符 在 发 送 方 唯一 ， 第 二 部 分 确保 标识 符 在 分 布 式 系统 中 唯一 。( 第 二 部 分 可 
以 单独 获得 ， 例 如 如 果 使 用 UDP， 可 以 从 接收 到 的 消息 中 获得 。) 

当 requestId 的 值 达 到 无 符号 整数 的 最 大 值 (例如 ，2” 一 1) 时 ， 就 重 置 为 0。 这 里 唯一 的 限制 
是 消息 标识 符 的 生命 周期 应 该 远 远 小 于 用 尽 整数 序列 值 的 时 间 。 

请 求 一 应 答 协 议 的 故障 模型 ”如 果 三 个 原 语 doOperation、getRequest 和 sendReply 都 在 UDP 数 
据 报 上 实现 ， 那 么 它们 都 可 能 出 现 同样 的 通信 故障 ， 即 

*。 存 在 遗漏 故障 。 

"消息 不 能 保证 按 发 送 方 顺序 到 达 。 

此 外 ， 协 议 还 有 可 能 遇 到 进程 故障 (参见 2.3.2 节 ) ， 我 们 假设 进程 会 崩溃 。 也 就 是 说 ， 当 它们 
停止 时 ， 它 们 会 一 直 停 止 下 去 一 一 它们 不 产生 拜占庭 行为 。 

考虑 到 有 服务 器 故障 、 丢 失 请 求 消息 或 应 答 消 息 的 情况 ，doOperation 在 等 待 服务 器 应 答 消 息 
的 时 候 使 用 超时 。 超 时 后 采取 的 动作 取决 于 要 提供 的 传递 保证 。 

超时 ”超时 后 doOperation 能 发 生 不 同 的 行为 。 最 简单 的 是 马上 从 doOperation 返 回 ， 并 给 客户 
一 个 标志 提示 doOperation 操 作 失 败 。 但 这 不 是 常用 的 方法 ， 因 为 超时 可 能 是 由 于 请 求 或 应 答 消 息 
丢失 造成 的 。 此 时 ， 操 作 已 经 完成 。 为 了 弥补 丢失 消息 可 能 带 来 的 不 便 ，doOperation 重 复发 送 请 
求 消息 ， 直 到 它 获 得 一 个 应 答 或 者 它 能 确保 延迟 是 由 于 服务 器 没有 反应 而 不 是 消息 丢失 造成 的 为 
止 。 最 后 ， 当 doOperation 返 回 时 ， 它 通知 客户 出 现 了 一 个 “没有 接收 到 结果 ”的 异常 。 

丢弃 重复 的 请 求 消息 ”一旦 请 求 消息 被 重 传 ， 服 务 器 就 可 能 多 次 收 到 该 消息 。 例 如 ， 服 务 器 可 
能 收 到 第 一 个 请 求 消息 ， 但 它 执 行 命令 并 将 结果 返回 所 花 的 时 间 超过 了 客户 的 超时 时 限 。 这 就 会 
导致 服务 器 对 同一 请 求 执行 多 次 操作 。 为 了 避免 这 种 情况 ,协议 要 能 识别 具有 相同 请 求 标识 符 
(来 自 同一 客户 的 ) 的 后 续 消息 ， 并 过 滤 掉 重复 的 消息 。 如 果 服 务 器 还 没有 发 送 应 答 ， 也 不 需要 采 
取 特 别 的 动作 一 一 服务 器 在 执行 完 操作 后 会 传递 应 答 的 。 

丢失 应 答 消 息 如 果 服 务 器 在 收 到 一 个 重复 的 请 求 时 已 经 发 送 了 应 答 ， 那 么 它 要 再 次 执行 操作 
以 获得 结果 ， 除 非 它 将 原来 执行 的 结果 保存 起 来 。 有 些 服务 器 能 多 次 执行 操作 ， 每 次 都 能 获得 相 
同 的 结果 。 堆 等 操作 是 指 能 重复 执行 的 操作 ， 每 次 执行 的 效果 和 执行 一 次 的 效果 一 样 。 例 如 ， 将 
一 个 元 素 加 到 一 个 集合 的 操作 是 一 个 寡 等 操作 ， 因 为 每 次 执行 对 集合 的 效果 都 是 一 样 的 。 但 是 ， 
将 一 个 数据 项 追加 到 一 个 序列 不 是 一 个 圭 等 操作 ， 因 为 每 次 执行 它 都 会 扩展 这 个 序列 。 若 服务 器 
上 的 操作 都 是 寡 等 的 ， 那 么 服务 器 就 不 用 采取 特殊 的 手段 避免 多 次 执行 同一 个 操作 。 

历史 对 那些 要 求 不 重新 执行 操作 只 重 传 应 答 的 服务 器 ， 可 以 使 用 历史 。“ 历 史 ” 这 个 词 指 包 
含 已 经 传送 的 (应答 ) 消息 的 记录 的 结构 。 历 史 中 的 项 包含 一 个 请 求 标识 符 、 一 条 消息 和 要 发 送 到 
的 客户 标识 符 。 它 的 目的 是 使 服务 器 在 客户 进程 发 出 请 求 时 重 传 应 答 消息 。 与 历史 使 用 相关 的 问题 
是 它 的 内 存 开销 。 除 非 服务 器 能 够 说 明 什 么 时 候 消 息 不 再 需要 重 传 ， 否 则 历史 会 变 得 很 大 。 

虽然 客户 每 次 只 能 发 出 一 个 请 求 ， 但 服务 器 可 以 将 每 个 请 求解 释 成 它 对 前 一 个 应 答 的 确认 。 
因此 ， 历 史 只 需要 包含 发 送 给 每 个 客户 的 上 一 个 应 答 消息 。 然 而 ， 服 务 器 历史 中 的 应 答 消 息 量 在 
服务 器 具有 大 量 客户 时 会 成 为 一 个 问题 ， 特 别 是 ， 当 一 个 客户 进程 终止 ， 它 不 能 确认 它 已 接收 到 
上 一 个 应 答 时 一 一 因此 历史 中 的 消息 在 经 过 一 段 时 间 后 会 被 丢弃 。 

RPC 交 换 协 议 ”三 个 有 不 同 通信 故障 语义 的 协议 可 用 于 实现 不 同类 型 的 RPC。 它 们 最 初 由 
Spector[1982] 确 定 ; 

。 请 求 (R) 协议 





“请 求 一 应 答 (RR) 协议 

"请 求 一 应 答 一 确认 应 答 (RRA) 协议 

图 4-17 总 结 了 在 这 些 协议 中 传递 的 消息 。 在 R 协 议 中 ， 单 个 Request 消 息 由 客户 发 送 到 服务 器 。 
当 远 程 方法 没有 返回 值 而 且 客户 不 要 求 对 执行 的 方法 
进行 确认 时 可 使 用 R 协 议 。 客 户 可 以 在 发 送 请 求 消息 
之 后 马上 继续 进行 其 他 动作 ， 因 为 它 不 需要 等 待 应 答 
消息 。 该 协议 在 UDP 数据 报 之 上 实现 ， 因 此 会 出 现 与 


UDP 数据 报 相同 的 通信 故障 。 
因为 RR 协议 基于 请 求 一 应 答 协 议 ， 所 以 它 用 于 产 。。 确 认 应 答 
大 多 数 客户 一 服务 器 交互 。 它 不 需要 专门 的 确认 消息 ， 图 4-17 RPC 交 换 协议 


因为 服务 器 的 应 答 消息 被 认为 是 对 客户 请 求 消息 的 确 
认 。 同 样 ， 客 户 的 后 续 调 用 可 以 被 认为 是 对 服务 器 应 答 消 息 的 确认 。 止 如 我 们 已 经 看 到 的 ， 源 于 
UDP 数 据 报 的 通信 故障 可 以 通过 重 传 请 求 、 重 复 过 滤 和 在 重 传记 录 中 保存 应 答 来 屏蔽 。 

RRA 协 议 基于 三 种 消息 的 交换 ;请求 一 应 答 一 确认 应 答 。acknowledge reply 消 息 包含 被 确认 
应 答 消息 的 requestld， 这 会 造成 服务 器 丢弃 历史 中 的 数据 项 。 确认 消息 中 的 requestId 的 到 达 将 被 解 
释 成 对 所 有 接收 到 的 小 于 requestId 的 应 答 消 息 进行 确认 ， 所 以 确认 消息 的 于 失 是 无 害 的 。 虽然 数据 
交换 涉及 一 个 额外 的 消息 ， 但 它 不 需要 阻塞 客户 ， 因 为 确认 在 应 答 到 达 客 户 之 后 传递 ， 但 它 确实 
要 进行 处 理 并 使 用 网 络 资源 。 本 章 的 习题 4.23 将 给 出 一 种 对 RRA 协 议 进行 优化 的 方法 。 

使 用 TCP 流 实现 请 求 - 应 答 协 议 介绍 数据 报时 曾 提 到 ， 决定 接收 数据 报 使 用 的 缓冲 区 的 大 小 
是 很 困难 的 。 在 请 求 - 应 答 协议 中 ， 决定 服务 器 接收 请 求 消息 的 缓冲 区 和 客户 接收 应 答 的 缓冲 区 
也 很 困难 。 数 据 报 的 有 效 长 度 (通常 是 8KB) 对 于 透明 RMI 系 统 而 言 并 不 是 足够 的 ， 因为 过 程 的 参 
数 或 结果 可 以 是 任何 大 小 的 。 

避免 实现 多 包 协 议 是 选择 在 TCP 流 上 实现 请 求 一 应 答 协议 的 理由 之 一 ， 因为 TCP 流 允许 传输 任 
意 大 小 的 参数 和 结果 。 特 别 地 ，Java 对 象 序 列 化 是 一 个 流 协议 ， 它 允 许 参数 和 结果 通过 流 在 客户 和 
服务 器 之 间 传送 ， 并 且 能 够 可 靠 地 传递 任意 大 小 的 对 象 集合 。 如 果 使 用 TCP 协 议 ， 它 确 保 请 求 消息 
和 应 答 消 息 可 靠 地 传递 ， 所 以 没有 必要 让 请 求 一 应 答 协 议 处 理 消息 重 传 和 重复 消息 的 过 滤 或 处 理 
历史 。 另 外 ， 流 控制 机 制 可 以 在 不 用 采取 特殊 手段 来 避免 接收 方 的 崩溃 的 情况 下 传输 大 的 参数 和 
结果 。 因 此 ， 为 请 求 一 应 答 协议 选择 TCP 协 议 ， 是 因为 它 能 简化 请 求 一 应 答 协 议 的 实现 。 如 果 同 一 
对 客户 一 服务 器 之 间 的 后 继 请 求 和 应 答 在 同一 个 流 上 发 送 ， 那么 不 需要 在 每 个 远程 调用 上 都 有 连 
接 开销 。 当 一 个 应 答 消 息 紧 随 在 请 求 消 息 之 后 时 ，TCP 确 认 消 息 的 开销 也 将 减少 。 

有 时 ， 应 用 并 不 需要 由 TCP 提 供 的 所 有 设施 ， 一 个 更 有 效 的 经 过 特别 裁剪 的 协议 可 在 UDP 上 
实现 。 例 如 ， 我 们 提 到 过 ，Sun NFS 并 不 需要 允许 消息 的 大 小 不 限 ， 因为 它 在 客户 和 服务 器 之 间 传 
输 因 定 长 度 的 文件 块 ， 另 外 ， 它 的 操作 是 寡 等 的 ， 这 样 ， 为 了 重 传 丢失 的 应 答 消息 ， 即 使 多 次 执 
行 操作 也 没有 关系 ， 同 时 也 没有 必要 维护 历史 。 

HTTP: 请 求 - 应 答 协议 的 例子 ”第 1! 章 介绍 了 超 文本 传输 协议 (HTTP)，Web 浏 览 器 客户 使 用 
它 给 Web 服 务 器 发 送 请 求 并 从 服务 器 接收 应 答 。 扰 要 地 说 ， Web 服 务 器 管理 以 不 同方 式 实现 的 资源 : 

* 作为 数据 实现 的 资源 ， 例 如 ，HTML 页 面 的 文本 、 一 个 图 像 或 applet 的 类 。 

。 作 为 程序 实现 的 资源 ， 例 如 ， 能 在 web 服务器 上 运行 的 cgi 程 序 和 servlet ( 见 [java.sun.com II ) 。 

客户 请 求 指 定 了 一 个 URL， 它 包含 Web 服 务 器 的 DNS 主 机 名 和 Web 服 务 器 上 的 一 个 可 选 的 端 
口号 以 及 该 服务 器 上 一 个 资源 的 标识 符 。 

HTTP 是 一 个 协议 ， 它 指定 了 请 求 一 应 答 所 需 的 消息 、 方 法 、 参数 和 结果 以 及 在 消息 中 表示 
(编码 ) 它们 的 规则 。 它 支持 一 个 固定 的 可 用 于 所 有 资源 的 方法 集 (包括 GET、PUT、POST 等 ) ， 
上 面 的 那些 协议 的 每 个 对 象 有 它 自 己 的 方法 ， 在 这 一 点 上 HTTP 与 之 不 同 。 除了 在 web 资源 上 调用 
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方法 之 外 ，HTTP 协 议 能 使 用 内 容 协 商 和 口令 形式 的 认证 。 

内 容 协商 : 客户 请 求 包含 什么 数据 表示 能 接收 (例如 语言 或 介质 类 型 ) 之 类 的 信息 ， 这 使 得 
服务 器 能 选择 最 适合 用 户 的 数据 表示 。 

认证 : 证 书 和 质询 用 于 支持 口令 形式 的 认证 。 在 第 一 次 试图 访问 受 口令 保护 的 区 域 时 ， 服 务 
器 的 应 答 包 含 应 用 于 该 资源 的 质询 。 第 7 章 将 解释 质询 。 当 客户 接收 到 一 个 质询 时 ， 它 让 用 户 输 入 
名 字 和 口令 ， 并 在 后 继 的 请 求 中 提交 相关 的 证 书 。HTTP 是 在 TCP 上 实现 的 。 在 该 协议 的 最 初版 本 
中 ， 每 个 客户 一 服务 器 交互 由 下 列 步骤 组 成 : 

。 客 户 请 求 一 个 连接 ， 服 务 器 在 默认 的 服务 器 端口 或 URL 指 定 的 端口 上 建立 连接 。 

。 客 户 发 送 请 求 消息 到 服务 器 。 

。 服 务 器 发 送 应 答 消息 到 客户 。 

。 连 接 关闭 。 . 

然而 ， 为 每 个 请 求 一 应 答 交互 建立 和 关闭 连接 的 开销 太 大 ， 它 不 仅 会 使 服务 器 过 载 ， 而 且 在 
网 络 上 发 送 的 消息 也 太 多 。 考 虑 到 浏览 器 通常 会 向 同一 个 服务 器 发 多 个 请 求 ， 所 以 HTTP 协 议 在 之 
后 的 版 本 (HTTP 1.1， 见 RFC 2616[Fielding et al 1999]) 中 使 用 了 永久 连接 一 一 一 个 在 客户 和 服务 
器 之 间 的 一 系列 请 求 一 应 答 交互 上 一 直 打开 的 连接 。 客 户 或 服务 器 在 任何 时 候 通 过 发 送 一 个 标志 
给 对 方便 可 关闭 永久 连接 。 服 务 器 会 关闭 空间 了 一 段 时 间 的 永久 连接 。 客 户 在 发 送 请 求 期 间 ， 有 
可 能 会 从 服务 器 收 到 消息 说 连接 关闭 了 。 这 时 ， 如 果 涉 及 的 操作 是 短 等 的 ， 无 需 用 户 介 入 ， 浏 览 
器 就 会 重 发 请 求 。 例 如 ， 下 面 描述 的 GET 方 法 是 宕 等 的 。 当 涉及 非 震 等 操作 时 ， 浏 览 器 应 该 与 用 
户 协商 下 一 步 做 什么 。 

请 求 和 应 答 可 以 被 编码 成 ASCII 文 本 串 放 入 消息 中 ， 但 资源 能 表示 成 字 节 序列 ， 还 可 能 经 过 了 
压缩 。 在 外 部 数据 表示 中 使 用 文本 简化 了 直接 与 协议 打交道 的 应 用 程序 员 对 HTTP 的 使 用 。 在 这 种 
情况 下 ， 文 本 表示 不 会 过 度 增加 消息 的 长 度 。 

数据 实现 的 资源 在 参数 和 结果 中 具有 类 似 MIME 的 结构 。 在 RFC 2045 [Freed and Borenstein 
1996] 中 给 出 的 多 用 途 因 特 网 邮件 扩展 (Multipurpose Internet Mail Extension, MIME) 是 在 电子 邮 
件 中 发 送 包 含 文本 、 图 像 、 声 音 等 多 部 分 数据 的 标准 。 数 据 用 Mime 类 型 做 前 级 ， 以 便 接 收 方 将 知 
道 如 何 处 理 它 。 一 个 Mime 类 型 指定 了 一 个 类 型 和 一 个 子 类 型 ， 例 如 ，text/plain、text/html、 
image/gif、image/jpeg。 客 户 也 能 指定 它们 愿意 接收 的 Mime 类 型 。 

HTTP 方 法 每 个 客户 请 求 指定 了 服务 器 要 应 用 的 一 个 资源 的 方法 的 名 称 和 该 资源 的 URL。 应 
答 报告 请 求 的 状态 。 请 求 和 应 答 也 会 包含 资源 数据 、 表 单 的 内 容 或 在 Web 服 务 器 上 运行 的 一 个 程 
序 资 源 的 输出 。 有 以 下 几 种 方法 : 

GET:， 该 方法 请 求 一 个 资源 ， 该 资源 的 URL 以 参数 方式 给 出 。 如 果 UREL 指 向 数据 ， 那 么 Web 
服务 器 返回 由 URL 指 定 的 数据 ， 如 果 URL 指 向 程序 ， 那 么 Web 服 务 器 运行 该 程序 ， 为 客户 返回 程 
序 结果 。 可 向 URL 添 加 参数 ， 例 如 ，GET 可 以 将 一 个 表单 的 内 容 作 为 参数 发 送 给 一 个 cgi 程 序 。 可 
以 根据 上 次 资源 被 修改 的 日 期 选择 是 否 进行 GET 操 作 ， 也 可 以 配置 GET 操 作 获 得 部 分 数据 。 

HEAD: 该 请 求 与 SET 相似 ， 只 是 它 不 返回 任何 数据 。 它 返回 所 有 与 数据 有 关 的 信息 ， 如 上 次 
修改 时 间 、 数 据 类 型 或 大 小 。 

POST: 该 方法 指定 一 个 资源 (例如 一 个 程序 ) 的 URL， 该 资源 能 处 理 请 求 中 提供 的 数据 。 在 
数据 上 进行 的 处 理 和 URL 中 指定 的 程序 的 功能 有 关 。 该 方法 用 于 、 

* 为 servlet 或 cgi 程 序 这 样 的 数据 处 理 过 程 提供 数据 块 (例如 一 个 表单 )。 

* 将 消息 放 到 公告 牌 、 邮 件 列 表 或 新 闻 组 。 

。 用 追加 操作 扩展 数据 库 。 

PUT: 该 方法 将 请 求 中 的 数据 存储 起 来 并 用 给 定 的 URL 作 为 其 资源 标识 符 ， 请 求 中 的 数据 或 
者 作为 已 有 资源 的 修改 或 者 作为 一 个 新 的 资源 。 
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DELETE: 服务 器 删除 由 给 定 URL 标 识 的 资源 。 服 务 器 可 能 永远 都 不 允许 这 个 操作 ， 在 这 种 情 
况 下 ， 将 返回 请 求 失败 的 应 答 。 

OPTIONS : 服务 器 提供 给 客户 可 用 在 给 定 URL 上 的 方法 (例如 ，GET、HEAD、PUT) 以 及 
服务 器 的 特殊 需求 。 

TRACE: 服务 器 发 回 请 求 消息 ， 该 请 求 消息 用 于 诊断 。 

上 述 请 求 可 被 一 个 代理 服务 器 截获 〈 参 见 2.2.2 节 )， 对 GET 和 HEAD 的 响应 可 由 代理 服务 器 缓存 。 

消息 内 容 ”请求 消 息 指定 了 方法 名 、 资 源 的 URL、 协 议 版 本 、 若 干 消 息 头 和 可 选 的 消息 体 。 图 
4-18 给 出 了 一 个 HTTP 请 求 消息 (方法 为 GET) 的 内 容 ， 当 URL 指 定 一 个 数据 资源 时 ，GET 方 法 设 
有 消息 体 。 

URL 或 路 径 名 HTTP 版 本 头 部 消息 体 


http://www.dcs.qmul!.ac.uk/index.html HTTP/i.1 I 


图 4-18 HTTP 请 求 消息 


对 代理 的 请 求 需 要 给 出 绝对 URL， 如 图 4-18 所 示 。 对 源 服务 器 ( 源 服务 器 是 资源 所 在 地 ) 的 
请 求 指定 了 一 个 路 径 名 ， 并 在 头 部 的 host 域 给 出 源 服 务 器 的 DNS 名 字 。 例 如 ， 

GET /index.html HTTP/I.1 

Host: www.dcs.gmul.ac.uk 

通常 ， 头 部 域 包含 请 求 修改 者 和 客户 信息 ， 例 如 最 近 一 次 修改 资源 或 可 接受 的 内 容 类 型 ( 侈 
如 ，HTML 文 本 、 音 频 或 JPEG) 的 日 期 。 授 权 域 用 于 以 证 书 形式 提供 客户 的 证 明 ， 以 表明 他 们 访 
问 资 源 的 权力 。 

应 答 消 息 指定 了 协议 版 本 、 状 态 码 、“ 理 由 ”、 若 干 消息 头 和 可 选 的 消息 体 ， 如 图 4-19 所 示 。 
状态 码 和 理由 在 成 功 时 提供 一 个 报告 ， 否 则 在 执行 请 求 时 ， 状 态 码 是 一 个 由 程序 解释 的 三 位 整数 ， 
理由 是 一 个 可 被 用 户 理解 的 文本 短语 。 头 部 域 用 于 传递 有 关 服 务 器 或 资源 访问 的 额外 信息 。 例 如 ， 
如 果 请 求 要 求 认 证 ， 那 么 应 答 的 状态 码 将 给 出 相应 指示 ， 并 且 在 头 部 域 包含 一 个 质询 。 一 些 返 回 
的 状态 有 十 分 复杂 的 效果 。 特 别 是 ， 如 果 状 态 响应 为 303 则 浏览 器 要 查看 另 一 个 URL， 该 URL 位 于 
应 答 的 头 部 域 中 。 它 用 于 由 POST 请 求 激活 程序 的 应 答 中 ， 这 时 ， 程 序 要 将 浏览 器 重新 引导 到 选中 
的 资源 。 


HTTP 版 本 状态 码 ”理由 。 头 部 消息 体 
NL NE KE Te 


图 4-19 HTTP 应 答 消 息 


请 求 消息 或 应 答 消息 中 的 消息 体 包含 与 请 求 中 指定 的 URL 相 关 的 数据 。 消 息 体 有 它 自己 的 指 
定 了 有 关 数 据 信息 的 头 部 ， 这 些 信息 有 消息 体 的 长 度 、Mime 类 型 、 字 符 集 、 内 容 编 码 和 上 一 次 修 
改 时间 。Mime 类 型 域 指定 数据 的 类 型 ， 例 如 image/jpeg 或 text/plain， 内 容 编码 域 指定 所 使 用 的 压 
缩 算法 。 


4.5 组 通信 


如 果 为 了 提供 容错 能 力 或 为 了 提高 可 用 性 而 将 一 个 服务 实现 为 多 个 不 同 计算 机 上 的 多 个 不 同 
的 进程 ， 那 么 就 会 有 一 个 进程 到 一 组 进程 的 通信 。 消 息 成 对 交换 不 是 一 个 进程 到 一 组 进程 通信 的 
最 佳 模式 。 组 播 操作 是 更 合适 的 方式 ， 这 是 一 个 将 单个 消息 从 一 个 进程 发 送 到 一 组 进程 的 每 个 成 
员 的 操作 ， 组 的 成 员 对 发 送 方 通常 是 透明 的 。 组 播 的 行为 有 很 多 种 可 能 情况 。 最 简单 的 组 播 不 提 
供 消息 传递 保证 和 排序 保证 。 





_166 


组 播 消 息 为 构造 具有 下 列 特征 的 分 布 式 系 统 提 供 了 基础 设施 : 

1) 基于 服务 复制 的 容错 : 一 个 复制 服务 由 一 组 服务 器 组 成 。 客 户 请 求 被 组 播 到 组 的 所 有 成 员 ， 
每 一 个 成 员 都 执行 相同 的 操作 。 即 使 一 些 成 员 出 现 故 障 ， 仍 能 为 客户 提供 服务 。 

2) 在 自发 网 络 中 找到 发 现 服务 器 : 16.2.1 节 将 讨论 自发 网 络 中 的 发 现 服务 。 客 户 和 服务 器 能 
使 用 组 播 消 息 找到 可 用 的 发 现 服务 ， 以 便 在 分 布 式 系统 中 注册 服务 接口 或 查找 其 他 服务 的 接口 。 

3) 通过 复制 的 数据 获得 更 好 的 性 能 ， 复制 数据 能 提高 服务 的 性 能 。 在 某 些 情况 下 ， 数 据 的 复 
本 放 在 用 户 的 计算 机 上 。 每 次 数据 改变 ， 新 的 值 便 被 组 播 到 管理 复 本 数据 的 各 个 进程 。 

4) 事件 通知 的 传播 : 组 播 到 一 个 组 可 用 于 在 发 生 某 些 事情 时 通知 有 关 进 程 。 例 如 ， 当 一 个 新 
消息 被 贴 到 某 个 新 闻 组 时 ， 新 闻 系 统 可 通知 感 兴趣 的 用 户 。 

我 们 先 介绍 IP 组 播 ， 然 后 回顾 上 述 使 用 组 通信 的 要 求 ， 看 看 IP 组 播 能 满足 其 中 的 哪些 要 求 。 对 
于 不 能 满足 的 要 求 ， 我 们 在 组 通信 协议 中 提出 了 IP 组 播 已 有 特征 之 外 的 更 多 特征 。 


4.5.1 IP 组 播 一 一 组 通信 的 实现 

本 节 讨 论 IP 组 播 ， 并 通过 MujlticastSocket 类 给 出 组 播 的 Java API。 

IP 组 播 ”IP 组 播 在 网 际 协议 IP 的 上 层 突现。 注意，IP 数 据 包 是 面向 计算 机 的 -一 端口 属于 TCP 
和 UDP 层 。IP 组 播 使 发 送 方 能 够 将 单个 IP 数 据 包 传送 给 组 成 组 播 组 的 一 组 计算 机 。 发 送 方 不 清楚 每 
个 接收 者 身份 和 组 的 大 小 。 组 播 组 由 D 类 因特网 地 址 (参见 图 3-15) 指定 ， 即 在 IPv4 中 ， 前 4 位 是 
1110 的 地 址 。 

组 播 组 的 成 员 人 允许 计算 机 接收 发 送 给 组 的 IP 数 据 包 。 组 播 组 的 成 员 是 动态 的 ， 计 算 机 可 以 在 
任何 时 间 加 入 或 离开 ， 计 算 机 也 可 以 加 入 任意 数量 的 组 。 可 以 无 需 成 为 成 员 就 向 一 个 组 播 组 发 送 
数据 报 。 

在 应 用 编程 级 ，IP 组 播 只 能 通过 UDP 可 用 。 应 用 程序 通过 发 送 具有 组 播 地 址 和 普通 的 端口 号 
的 UDP 数据 报 完成 组 播 。 应 用 通过 将 套 接 字 加 入 到 组 来 加 入 一 个 组 播 组 ， 使 得 它 能 从 组 接收 消息 。 
在 下层 ， 当 一 个 或 多 个 进程 具有 属于 一 个 组 播 组 的 套 接 字 时 ， 该 计算 机 属于 这 个 组 播 组 。 当 一 个 
组 播 消 息 到 达 计 算 机 时 ， 消 息 复 本 被 转发 到 所 有 已 经 加 入 到 指定 组 播 地 址 和 指定 端口 号 的 本 地 套 
接 字 上 。 下 列 特点 是 IPv4 特 有 的 ; 

组 播 路 由 器 : IP 数 据 包 既 能 在 局 域 网 上 组 播 也 能 在 因特网 上 组 播 。 本 地 的 组 播 使 用 了 局 域 网 
(例如 以 太 网 ) 的 组 播 能 力 。 因 特 网 上 的 组 播 利用 了 组 播 路 由 器 ， 由 它 将 单个 数据 报 转 发 到 其 他 成 
员 所 在 网 络 的 路 由 器 上 ， 再 通过 路 由 器 组 播 到 本 地 成 员 。 为 了 限制 组 播 数 据 报 传播 的 距离 ， 发 送 
方 可 以 指定 允许 通过 的 路 由 器 数量 ， 这 称 为 存活 时 间 ， 简 称 TTL。 要 理解 路 由 器 如 何 知道 其 他 哪 一 
个 路 由 器 具有 组 播 组 的 成 员 ， 请 参见 Comer[2000b] 。 

组 播 地 址 分 配 : 组 播 地 址 可 以 是 永久 的 ， 也 可 以 是 临时 的 。 永 久 组 甚至 可 以 在 没有 成 员 的 情 
况 下 存在 一 因特网 管理 局 将 它们 的 地 址 设 成 224.0.0.1 到 224.0.0.255。 其 中 ， 第 一 个 地 址 指 的 是 所 
有 组 播 主机 本 身 。 1 

剩 下 的 组 播 地 址 可 用 于 临时 组 ， 这 些 组 必须 在 使 用 前 创建 ， 在 所 有 成 员 离开 的 时 候 消 失 。 创 
建 一 个 临时 组 时 ， 要 有 一 个 空闲 的 组 播 地 址 以 避免 意外 地 加 入 到 一 个 已 有 组 中 。IP 组 播 协议 没有 
解决 这 个 问题 。 但 当 它 的 用 户 仅 需要 本 地 通信 时 ， 协 议 将 把 TTL 设 置 为 一 个 小 的 值 ， 使 得 它 不 可 能 
与 其 他 组 选择 同一 个 地 址 。 然 而 ， 用 IP 组 播 在 因特网 上 编程 需要 解决 这 个 问题 。 会 话 目录 (sd) 程 
序 用 于 启动 或 加 入 一 个 组 播 会 话 [Handley 1998，session directory]。 它 提供 了 一 个 具有 交互 界面 的 
工具 ， 人 允许 人 们 浏览 已 公布 的 组 播 会 话 ， 或 公布 自己 的 会 话 ， 可 指定 时 间 和 持续 时 间 一 一 它 为 每 个 
新 的 会 话 选择 一 个 组 播 地 址 。 

组 播 数据 报 的 故障 模型 ”IP 组 播 上 的 数据 报 组 播 与 UDP 数 据 报 有 相同 的 故障 特征 ， 也 就 是 说 ， 
它们 也 会 遭遇 遗漏 故障 。 如 果 在 组 播 上 出 现 遗 漏 故 障 ， 那 么 哪怕 遇 到 一 个 遗漏 故障 ， 消 息 也 不 能 
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保证 传递 到 一 个 特定 组 的 所 有 成 员 。 也 就 是 说 ， 有 部 分 组 成 员 能 接收 到 消息 。 这 称 为 不 可 靠 的 组 
播 ， 因 为 它 不 能 保证 消息 传递 到 组 的 每 一 个 成 员 。 可 靠 的 组 播 见 第 12 章 的 讨论 。 

IP 组 播 的 Java API java API 通过 类 MulticastSocket 提 供 耻 组 播 的 数据 报 接口 ， 类 Mujlticast- 
Socket 是 DatagramSocket 的 子 类 ， 具 有 加 入 组 播 组 的 能 力 。 类 MnulticastSocket 提 供 了 两 个 构造 函数 ， 
允许 用 一 个 指定 的 本 地 端口 〈 例 如 ， 图 4-20 中 所 示 的 6789) 或 任何 空闲 的 本 地 端口 创建 套 接 字 。 
一 个 进程 可 通过 调用 它 的 组 播 套 接 字 的 joinGroup 方 法 以 一 个 给 定 的 组 播 地 址 为 参数 加 入 到 一 个 组 
播 组 。 实 际 上 ， 套 接 字 在 给 定 端口 加 入 到 一 个 组 播 组 ， 它 将 接收 其 他 计算 机 上 的 进程 发 送 给 位 于 
这 个 端口 的 组 的 数据 报 。 进 程 通过 调用 它 的 组 播 套 接 字 的 leaveGroup 方 法 离开 指定 的 组 。 





import Japanet 站 


import java.io.*; 
public class MulticastPeer{ 
public static void main({String args[)){ 
/1 args give message contents & destination multicast group (e.g. "228.5.6.7") 
MulticastSocket s =null; 
try{ 
InetAddress group = InetAddress.getByName(args[1)): 
$= new Muiticast$Socket(6789}; 
$s.joinGroup{ group); 
byte [] m = args[0].getBytes():; 
DatagramPacket messageOut = 
new DatagramPacket(m, m.length, group, 6789); 
s.Send{messageOut); 
byre{] buffer = new bytef 1000]; 
ri i=0; i< 3; it++){// get messages from others in group 
DatagramPacket messageln = 


new DatagramPacket( buffer, buffer.length); 





Sreceive({messageln); 
System.out.printin( "Received:" + new String(messageln.getDatal ))); 
2 
s.leaveGroup{ group); 
jcatch (SocketException e} System.out.printin( "Socket: " + e.getMessagel }); 
Jcatch {IOException e){ System.out.printIin( "IO: " + e.getMessagel)); 
finally {fifts != null) s.close(),} 





图 4-20 组 播 成 员 加 入 一 个 组 ， 然 后 发 送 和 接收 数据 报 


在 图 4-20 所 示 的 例子 中 ，main 方 法 的 参数 指定 了 要 组 播 的 消息 和 组 的 组 播 地 址 (例如 
“228.5.6.7 ) 。 在 加 入 到 组 播 组 后 ， 进 程 生成 包含 消息 的 DatagramPacket 的 实例 ， 并 通过 组 播 套 接 
字 发 送 该 消息 到 端口 6789 上 的 组 播 组 地 址 。 之 后 ， 它 试图 通过 它 的 套 接 字 从 同属 同一 端口 上 的 其 
他 组 成 员 处 接收 三 个 组 播 消息 。 当 该 程序 的 几 个 实例 同时 在 不 同 的 计算 机 上 运行 时 ， 它 们 都 加 入 
同一 个 组 ， 每 一 个 实例 应 该 接收 自己 的 消息 和 来 自 同一 组 的 消息 。 

Java API 人 允许 通过 setTimeToTive 方 法 为 组 播 套 接 字 设 置 TTL。 上 默认 值 是 1， 允 许 组 播 仅 在 局 域 
网 中 传播 。 

在 IP 组 播 上 实现 的 应 用 可 以 使 用 多 个 端口 。 例 如 ，MaultiTalk[mbone] 应 用 允许 用 户 组 保持 文本 
格式 的 会 话 ， 它 用 一 个 端口 发 送 和 接收 数据 ， 用 另 一 个 端口 交换 控制 数据 。 
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4.5.2 组 播 的 可 靠 性 和 排序 

上 一 节 介 绍 了 IP 组 播 的 故障 模型 。 也 就 是 说 ，IP 组 播 会 遭遇 遗漏 故障 。 对 局 域 网 的 组 播 而 言 ， 
它 利用 网 络 的 组 播 能 力 让 单个 数据 报到 达 多 个 接收 者 ， 但 任何 一 个 接收 者 都 可 能 因为 它 的 缓冲 区 
已 满 而 丢弃 消息 。 从 一 个 组 播 路 由 器 发 送 到 另 一 个 路 由 器 的 数据 报 也 可 能 丢失 ， 这 妨碍 了 通过 路 
由 器 到 达 的 接收 者 接收 消息 。 

另 一 个 因素 是 任何 进程 可 能 失败 。 如 果 组 播 路 由 器 出 现 故 障 ， 那 么 通过 路 由 器 到 达 的 组 成 员 
将 不 能 接收 到 组 播 消 息 ， 尽 管 本 地 成 员 还 可 以 接收 组 播 消 息 。 

还 有 一 个 问题 是 排序 。 在 互连网 络 上 发 送 的 IP 数 据 包 不 一 定 按 发 送 顺 序 到 达 ， 这 样 ， 组 中 的 
一 些 成 员 从 同一 个 发 送 者 处 接收 的 数据 报 的 顺序 可 能 与 其 他 组 成 员 接收 的 顺序 不 一 样 。 另 外 ， 两 
个 不 同 的 进程 发 送 的 销 息 不 必 以 相同 的 顺序 到 达 组 的 所 有 成 员 。 

可 靠 性 和 排序 的 效果 举例 ”我 们 现在 用 4.5 节 开始 部 分 介绍 的 四 个 使 用 复制 的 例子 考虑 JP 组 播 
故障 语义 的 作用 。 

1) 基于 服务 复制 的 容错 : 考虑 这 样 一 个 复制 服务 ， 它 由 一 组 服务 器 组 成 ， 这 些 服务 器 以 相同 
的 初始 状态 启动 ， 总 是 以 相同 的 顺序 执行 相同 的 操作 ， 以 便 维持 彼此 之 间 的 一 致 性 。 这 个 组 播 应 

106 用 要 求 要 么 所 有 的 复 本 接收 到 同一 个 操作 请 求 ， 要 么 所 有 的 复 本 都 没有 接收 到 操作 请 求 一 一 如 果 有 
167| ”一 个 复 本 错过 了 该 请 求 ， 那 么 它 就 无 法 与 其 他 复 本 保持 一 致 。 在 大 多 数 情况 下 ， 该 服务 将 要 求 所 
有 成 员 以 相同 的 顺序 接收 请 求 消息 。 

2) 在 自发 网 络 中 找到 发 现 服 务 器 ， 假设 想 定位 发 现 服务 器 的 进程 在 它 启 动 后 定期 发 送 组 播 请 
求 ， 那 么 在 定位 发 现 服务 器 时 偶尔 丢失 请 求 不 会 产生 太 大 的 问题 。 事 实 上 ，Jini 在 它 的 协议 中 使 用 
了 IP 组 播 录 找 发 现 服务 器 。16.2.1 节 将 讲述 这 个 问题 。 

3) 通过 复制 的 数据 获得 更 好 的 性 能 : 考虑 利用 组 播 消息 分 布 复制 数据 本 身 而 不 是 数据 上 的 操 
作 的 情况 ， 此 时 消息 丢失 和 顺序 不 一 致 所 产生 的 后 果 取 决 于 复制 的 方法 和 所 有 最 新 复 本 的 重要 性 。 
例如 ， 新 闻 组 的 复 本 不 必 在 任何 时 候 都 一 致 一 -消息 其 至 可 以 以 不 同 的 顺序 出 现 ， 用 户 能 处 理 这 种 
情况 。 

4) 事件 通知 的 传播 : 特定 应 用 决定 了 组 播 所 要 求 的 质量 。 例 如 ，Jini 的 查找 服务 使 用 IP 组 播 
通告 服务 的 存在 (参见 16.2.1 节 )。 

这 些 例子 说 明 ， 一 些 应 用 需要 比 IP 组 播 更 可 靠 的 组 播 协 议 。 特 别 是 ， 有 可 靠 组 播 的 需求 即 传 
输 的 任何 消息 要 么 被 一 个 组 的 所 有 成 员 都 收 到 ， 要 么 所 有 成 员 都 收 不 到 。 这 些 例 子 也 说 明 ， 有 些 
应 用 对 顺序 有 严格 的 需求 ， 需 求 最 严格 的 称 为 全 排序 组 播 ， 这 时 ， 传 输 到 一 个 组 的 所 有 消息 要 以 
相同 的 顺序 到 达 所 有 成 员 。 

第 12 章 将 定义 和 说 明 如 何 实现 可 靠 组 播 以 及 各 种 有 用 的 排序 保证 ， 包 括 全 排序 组 播 。 


4.6 实例 研究 ，UNIX 中 的 进程 间 通 信 


UNIX BSD 4.x 中 的 IPC 原 语 是 以 系统 调用 方式 提供 的 ， 它 们 在 因特网 TCP 和 UDP 协议 上 作为 
一 层 实 现 。 消 息 目 的 地 被 指定 为 套 接 字 地 址 一 一 个 套 接 字 地 址 由 一 个 因特网 地 址 和 一 个 本 地 端口 
号 组 成 。 

进程 间 通 信 操 作 基于 4.2.2 节 描述 的 套 接 字 抽 象 。4.2.2 节 介绍 过 ， 消 息 在 发 送 套 接 字 上 排队 ， 
直到 网 络 协 议 传输 它们 为 止 ， 如果 协 议 要 求 的 话 则 要 等 到 确认 到 达 才 能 传输 。 当 消息 到 达 时 ， 它 
们 在 接收 方 的 套 接 字 上 排队 ， 直 到 接收 进程 用 一 个 适当 的 系统 调用 接收 它们 为 止 。 

任何 进程 都 可 以 创建 一 个 套 接 字 来 与 其 他 进程 通信 。 这 需要 调用 socket 系 统 调用 ， 它 的 参数 指 
定 了 通信 域 (通常 是 因特网 }、 类 型 (数据 报 或 流 ) 和 特定 协议 (有 时 需要 ) 。 通 常 由 系统 根据 是 

[168] 数据 报 通信 还 是 流通 信 选择 协 议 ( 例 如 TCP 或 UDP)。 
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socket 调 用 返回 一 个 描述 符 ， 以 便 在 后 续 的 系统 调用 中 引用 该 套 接 字 。 该 套 接 字 将 一 直 存在 ， 
直到 它 被 关闭 或 使 用 该 描述 符 的 所 有 进程 都 退出 为 止 。 可 为 相同 或 不 同 计算 机 上 进程 之 间 的 双向 
或 单 向 通信 使 用 一 对 套 接 字 。 

在 一 对 进程 能 通信 前 ， 接 收 方 必须 将 它 的 套 接 字 描 述 符 绑 定 到 一 个 套 接 字 地 址 。 如 果 发 送 方 
要 求 有 应 答 ， 它 也 必须 将 它 的 套 接 字 描 述 符 绑 定 到 一 个 套 接 字 地 址 。bind 系 统 调用 就 是 用 于 上 述 目 
的 的 。 它 的 参数 是 一 个 套 接 字 描 述 符 和 一 个 结构 引用 ， 该 结构 包含 了 套 接 字 所 绑 定 到 的 套 接 字 地 
址 。 一 皇 绑 定 了 一 个 套 接 字 ， 它 的 地 址 就 不 能 改变 了 。 

用 一 个 系统 调用 完成 套 接 字 创 建 和 将 名 字 绑 定 到 一 个 套 接 字 似乎 更 合理 ， 就 像 在 Java API 中 一 
样 。 用 两 个 独立 的 系统 调用 的 好 处 是 套 接 字 在 没有 套 接 字 地 址 时 也 可 使 用 。 

当 套 接 字 地 址 用 作 进 程 目的 地 时 ， 套 接 字 地 址 是 公开 的 。 在 进程 将 它 的 套 接 字 绑 定 到 一 个 套 
接 字 地 址 之 后 ， 其 他 指向 相应 套 接 字 地 址 的 进程 就 可 以 间接 找到 该 套 接 字 。 任 何 进程 (例如 计划 
通过 它 的 套 接 字 接 收 消息 的 服务 器 ) 必须 首先 将 套 接 字 绑 定 到 一 个 套 接 字 地 址 ， 并 将 该 套 接 字 地 
址 告知 所 有 潜在 的 客户 。 


4.6.1 数据 报 通信 
为 了 发 送 数据 报 ， 每 次 通信 时 要 确定 一 对 套 接 字 。 这 需要 发 送 进程 在 每 次 发 送 消息 时 使 用 它 
本 地 的 套 接 字 描述 符 和 接收 套 接 字 的 套 接 字 地 址 来 达到 。 
图 4-21 对 此 给 出 了 说 明 ， 图 中 简化 了 对 参数 的 描述 。 
发 送 一 个 消息 接收 一 个 消息 





| :=socketAF_INET, SOCK_DGRAM,0) |， ] ssocket(AF_INET, SOCK_DGRAM.,0) 


4 bind(s, ClientAddress) 人 bind(s, ServerAddress) 


sendto(s,"message", ServerAddress) : 二 amount=recvfrom(s, buffer, from) 


ServerAddress 和 ClientAddress 是 套 接 字 地 址 。 
图 4-21 用 于 数据 报 的 套 接 字 


。 两 个 进程 均 使 用 socket 调 用 创建 套 接 字 并 获得 该 套 接 字 的 描述 符 。socket 的 第 一 个 参数 将 通 
信 域 指定 为 因特网 域 ， 第 二 个 参数 表明 使 用 数据 报 通信 。socket 调 用 的 最 后 一 个 参数 用 于 指 
定 某 个 协议 ， 将 它 设 成 0 表示 由 系统 选择 一 个 合适 的 协议 一 一 在 本 例 中 是 UDP。 

“两 个 进程 接 下 来 使 用 bind 调 用 将 它们 的 套 接 字 绑 定 到 套 接 字 地 址 。 发 送 进程 将 它 的 套 接 字 绑 
定 到 一 个 指向 任何 可 用 的 本 地 端口 号 的 套 接 字 地 址 。 接 收 进程 将 它 的 套 接 字 绑 定 到 包含 服务 
器 端口 的 套 接 字 地 址 ， 并 且 让 发 送 方 知道 该 地 址 。 

。 发 送 进 程 使 用 sendto 调 用 ， 其 参数 指定 消息 通过 哪个 套 接 字 发 送 、 消 息 自身 和 目的 地 的 套 接 
字 地 址 (对 该 地 址 结构 的 一 个 引用 )。sendto 调 用 将 消息 传递 到 底层 UDP 和 IP 协 议 ， 并 返回 所 
发 送 的 实际 字 节 数 。 当 我 们 请 求 数据 报 服务 时 ， 消 息 传递 到 目的 地 并 且 不 需要 确认 。 如 果 消 
息 太 长 而 不 能 发 送 ， 那 么 会 返回 一 个 错误 (同时 消息 不 被 传输 ) 。 

* 接收 进程 使 用 recvfrom 调 用 ， 其 参数 指定 接收 消息 的 本 地 套 接 字 、 存 储 消息 的 内 存 位 置 和 发 
送 套 接 字 的 套 接 字 地 址 (对 该 地 址 结构 的 一 个 引用 ) 。recvfrom 调 用 收集 套 接 字 队列 上 的 第 
一 个 消息 ， 如 果 队 列 为 空 ， 该 调用 将 等 待 ， 直 到 消息 到 达 为 止 。 

只 有 当 一 个 进程 中 的 sendto 将 它 的 消息 导向 到 另 一 个 进程 中 recvfrom 使 用 的 套 接 字 时 ， 才 发 生 

通信 。 在 客户 一 服务 器 通信 中 ， 服 务 器 不 必 有 预先 知道 客户 套 接 字 地 址 ， 因 为 recvfrom 操 作 给 它 传递 
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的 每 个 消息 提供 发 送 方 的 地 址 。UNIX 数 据 报 通信 的 性 质 与 4.2.3 节 描述 的 一 样 。 
4.6.2 流通 信 

为 了 使 用 流 协 议 ， 两 个 进程 必须 首先 建立 一 对 套 接 字 之 间 的 连接 。 双 方 的 流程 是 不 对 称 的 ， 
因为 一 个 套 接 字 将 监听 连接 请 求 ， 而 另 一 个 套 接 字 用 于 请 求 连接 ， 参 见 图 4.2.4 节 的 描述 。 一 旦 一 
对 套 接 字 建 立 了 连接 ， 它 们 可 用 于 双向 或 单 向 传输 数据 。 也 就 是 说 ， 它 们 的 行为 和 流 一 样 ， 因 为 
任何 可 用 的 数据 可 以 按照 写 人 它们 的 顺序 马上 被 读 出 ， 而 且 没 有 消息 边界 的 标志 。 然 而 ， 接 收 套 
接 字 的 队列 是 有 限 的 ， 如 果 队 列 为 空 ， 接 收 方 会 阻塞 ， 如 果 队 列 满 了 ， 发 送 方 会 阻塞 。 

对 于 客户 和 服务 器 之 问 的 通信 ， 客 户 请 求 连接 ， 监 听 服 务 器 接受 连接 。 当 接受 连接 时 ，UNIX 
自动 创建 一 个 新 的 套 接 字 ， 并 与 客户 端 套 接 字 成 为 一 对 ， 这 样 ， 服 务 器 可 以 通过 原来 的 套 接 字 继 续 
监听 其 他 客户 连接 请 求 。 在 后 续 的 流通 信 中 可 以 一 直 使 用 一 对 互 连 的 流 套 接 字 ， 直 到 连接 关闭 为 止 。 

流通 信 如 图 4-22 所 示 ， 该 图 简化 了 参数 撕 述 。 图 中 没有 给 出 服务 器 关闭 监听 的 套 接 字 。 正 党 
情况 下 ， 服 务 器 应 该 首先 监听 并 接受 一 个 连接 ， 然 后 派生 一 个 新 的 进程 与 客户 通信 。 同 时 ， 它 将 
继续 在 原来 的 进程 中 监听 。 


请 求 一 个 连接 监听 并 接受 一 个 连接 












s=socket(AF_INET,SOCK_STREAM.0) s=socket(AF_INET,SOCK_STREAM 






bind(s, ServerAddress); 
listen(s,5); 






connect(s, ServerAddress) 






sNew=accept(s, ClientAddress); 






4 write(s, "message", length) 






n=read(sNew, buffer, amount) 


eS 
i 


ServerAddress 和 ClientAddress 是 肆 接 字 地 址 。 
图 4-22 使 用 流 的 套 接 字 


“ 服务 器 或 监听 进程 首先 使 用 socket 操 作 创建 一 个 流 套 接 字 ， 再 用 bind 操 作 将 它 的 套 接 字 绑 定 
到 服务 器 的 套 接 字 地 址 。socket 系 统 调用 的 第 二 个 参数 值 是 SOCK_STREAM， 表 明 使 用 的 是 
流通 信 。 如 果 将 第 三 个 参数 设 成 0， 将 自动 选择 TCP/IP 协 议 。 它 使 用 listen 操 作 监听 它 的 套 接 
字 上 客户 建立 连接 的 请 求 。listen 系 统 调用 的 第 二 个 参数 指定 能 在 该 套 接 字 上 排队 的 连接 请 
求 的 最 大 值 。 

" 服务 器 使 用 accept 系 统 调用 接受 客户 请 求 的 连接 ， 并 获得 一 个 新 的 套 接 字 来 与 该 客户 的 通信 。 
原来 的 套 接 字 仍 可 以 用 于 接收 其 他 客户 后 续 的 连接 。 

* 客户 进程 使 用 socket 操 作 创建 一 个 流 套 接 字 ， 然 后 使 用 connect 系 统 调用 通过 监听 进程 的 套 接 
字 地 址 请 求 一 个 连接 。 因 为 connect 调 用 自动 将 一 个 套 楼 字 名 字 与 调用 者 的 套 接 字 绑 定 ， 所 以 
以 前 的 绑 定 是 不 必要 的 。 

“ 在 连接 建立 之 后 ， 双 方 进程 都 可 以 在 各 自 的 套 接 字 上 通过 连接 使 用 write 和 read 操 作 发 送 和 接 
收 字 节 序列 。write 操 作 与 文件 的 写 操作 类 似 。 它 指定 要 发 送 给 套 接 字 的 消息 。 它 将 消息 传递 


到 底层 的 TCP/IP 协 议 ， 然 后 返回 实际 发 送 的 字符 数 。read 操 作 从 它 的 缓冲 区 中 接收 字符 ， 返 
回 接收 到 的 字符 数 。 


UNIX 流 通信 的 性 质 与 4.2.4 节 描述 的 性 质 一 样 。 
4.7 小 结 


本 章 第 1 节 说 明了 因特网 协议 提供 了 两 个 可 替换 的 协议 构造 成 分 。 在 这 两 个 协议 之 间 存 在 一 种 
有 趣 的 权衡 :， UDP 提供 了 一 个 简单 的 消息 传递 设施 ， 它 存在 遗漏 故障 但 没有 内 在 的 性 能 障碍 。 另 -- 
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方面 ，TCP 可 以 保证 消息 传递 但 需要 以 额外 的 消息 、 高 延迟 和 存储 开销 作为 代价 。 

第 2 节 给 出 了 三 种 编码 风格 。CORBA 和 它 的 前 身 采 用 的 编码 数据 的 方式 要 求 接收 者 具有 各 个 
成 分 的 类 型 知识 。 相 反 ， 当 Java 序 列 化 数据 时 ， 它 包括 了 关于 数据 内 容 类 型 的 所 有 信息 ， 允 许 接收 
方 根据 内 容重 构 数 据 。XML 类 似 Java， 包含 了 所 有 类 型 信息 。 另 一 个 大 的 区 别 是 CORBA 要 求 为 数 
据 项 类 型 的 规约 编码 (用 IDL)， 以 便 生成 编码 和 解码 方法 ， 而 Java 使 用 反射 将 对 象 序列 化 并 解 序 
列 化 串 行 格式 的 对 象 。 生 成 XML 可 采用 许多 不 同 的 手段 ， 这 取决 于 上 下 文 。 例 如 ， 许 多 编程 语言 
(包括 Java) 提供 了 在 XML 和 语言 级 对 象 之 间 进行 转换 的 处 理 器 。 

请 求 一 应 答 协 议 部 分 给 出 了 一 个 有 特殊 目的 的 有 效 的 分 布 式 系统 协议 ， 它 基于 UDP 数 据 报 。 应 
答 消息 形成 了 对 请 求 消息 的 确认 ， 这 样 避免 了 确认 消息 的 额外 开销 。 如 果 有 必要 ， 协 议 还 能 做 得 更 
可 靠 。 按 照 该 协议 ， 不 能 保证 “请 求 消息 的 发 送 将 导致 方法 的 执行 ”一 一 这 已 经 可 以 满足 一 些 应 用 
了 。 通 过 利用 消息 标识 符 和 消息 重 传 确保 一 个 方法 最 终 确实 被 执行 可 以 增加 可 靠 性 。 对 具有 短 等 操 
作 的 服务 ， 这 是 够 了 。 然 而 ， 其 他 应 用 要 求 重 传 应 答 消息 但 不 再 次 执行 请 求 中 的 方法 。 借 助 于 历史 
可 实现 这 一 点 。 这 说 明 ， 构 造 多 个 协议 以 满足 不 同类 的 应 用 是 个 好 主意 ， 不 要 构造 一 个 过 度 可 靠 的 
通用 协议 ， 因 为 在 正常 情况 下 ， 系 统 很 少 发 生 错误 ， 这 时 过 度 可 靠 的 通用 协议 性 能 比较 差 。 

组 播 消息 用 于 进程 组 成 员 之 间 的 通信 。IP 组 播 提供 了 一 个 既 可 用 于 局 域 网 又 可 用 于 因特网 的 
组 播 服务 。 这 种 形式 的 组 播 与 UDP 数据 报 具 有 相同 的 故障 语义 ， 尽 管 会 有 遗漏 故障 ， 它 对 许多 组 
播 应 用 而 言 仍 是 一 个 有 用 的 工具 。 其 他 一 些 应 用 有 更 高 的 需求 一 特别 是 , 组 播 传递 应 该 是 原子 的 ， 
即 它 应 该 具有 全 部 传递 或 全 部 不 传递 的 性 质 。 关 于 组 播 的 其 他 需求 与 消息 的 顺序 有 关 ， 最 严格 的 
需求 是 组 的 所 有 成 员 都 要 按 相同 的 顺序 接收 所 有 消息 。 


练习 

4.1 请 设想 一 个 端口 有 几 个 接收 者 时 ， 对 消息 的 处 理 情况 ? (第 134 页 ) 

4.2 服务 器 创建 了 一 个 端口 ， 用 于 从 客户 端 接收 请 求 。 讨 论 有 关 端 口 名字 和 客户 使 用 的 名 字 之 间 
关系 的 设计 间 题 。 (第 134 页 ) 


43 图 4-3 和 图 4-4 中 的 程序 可 从 www.cdk4.net/ipc 下 载 ， 用 它们 制作 一 个 测试 包 来 确定 数据 报 被 丢 
弃 的 条 件 。 提 示 ， 客户 程序 应 该 能 改变 发 送 消息 的 个 数 和 它们 的 大 小 ; 来 自 某 个 特定 客户 的 
消息 如 果 丢失 ， 服 务 器 应 该 能 检测 到 。 (第 136 页 ) 

4.4 利用 图 4-3 中 的 程序 制作 一 个 客户 程序 ， 让 它 反复 地 从 用 户 处 读 取 输 入 ， 并 用 UDP 数据 报 消息 
把 这 些 内 容 发 送 到 服务 器 ， 接 着 从 服务 器 接收 一 条 消息 。 客 户 在 它 的 套 接 字 上 设置 超时 ， 以 便 
在 服务 器 没有 应 答 时 能 通过 客户 通知 用 户 。 用 图 4-4 中 的 服务 器 测试 该 客户 程序 。 (第 136 页 ) 

4.5 图 4-5 和 图 4-6 中 的 程序 可 从 www.cdk4.neUipc 获 得 。 修 改 程序 以 便 客户 能 反复 读 取 用 户 输入 并 
将 它 写 到 流 中 ， 服务器 反复 地 从 流 中 读 取 内 容 ， 并 将 每 次 读 取 的 结果 打印 出 来 。 比 较 用 UDP 


数据 报 发 送 数 据 和 在 流 上 发 送 数据 。 (第 140 页 ) 
4.6 用 练习 4.5 开 发 的 程序 测试 接收 方 崩溃 时 发 送 方 的 结果 ， 以 及 发 送 方 崩溃 时 接收 方 的 情况 。 
(第 140 页 ) 
4.7 Sun XDR 在 传输 前 将 数据 编码 成 标准 的 大 序 法 格式 。 与 CORBA 的 CDR 比 较 ， 讨 论 这 种 方法 的 
好 处 和 不 足 。 (第 146 页 ) 
4.8 Sun XDR 在 每 个 简单 类 型 值 上 进行 4 字 节 边界 对 齐 ， 而 CORBA CDR 对 一 个 大 小 为 a 字 节 的 简 
单 类 型 在 n 字 节 边 界 对 齐 。 讨 论 在 选择 简单 类 型 值 占据 的 大 小 应 做 出 的 权衡 。 (第 146 页 ) 
4.9 为 什么 在 CORBA CDR 中 没有 显 式 的 数据 类 型 ? (第 146 页 ) 


4.10 用 伪 代 码 写 一 个 算法 描述 4.3.2 节 中 描述 的 序列 化 程序 。 算 法 应 该 给 出 类 和 实例 的 句柄 被 定义 
或 替换 的 时 间 。 描 述 在 对 类 Couple 的 实例 进行 序列 化 时 ， 你 的 算法 应 该 生成 的 序列 化 格式 。 
(第 148 页 ) 
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class Couple implements Serializable{ 
Private Person one; 
Private Person two; 
Public Couple(Person a, Person b}{ 
one=a; 
two=b; 
2 
2} 
用 伪 代 码 写 一 个 算法 描述 由 练习 4.10 定 义 的 算法 产生 的 序列 化 格式 的 解 序列 化 过 程 。 提 示 : 
使 用 反射 ,根据 它 的 名 字 创 建 一 个 类 ， 根 据 它 的 参数 类 型 创建 构造 函数 ， 根 据 构造 函数 和 参 


数值 创建 对 象 的 新 实例 。 (第 148 页 ) 
为 什么 在 XML 中 不 能 直接 表示 二 进 制 数据 例如， 表示 成 Unicode 字 节 值 ? XML 元 素 能 携带 
表示 成 base64 的 串 。 讨 论 用 这 种 方法 表示 二 进 制 数据 的 好 处 或 不 足 。 (第 150 页 ) 


定义 一 个 其 实例 表示 远程 对 象 引 用 的 类 。 它 应 该 包含 类 似 图 4-13 所 示 的 信息 ， 应 该 提供 请 
求 一 应 答 协 议 所 需 的 访问 方法 。 解 释 每 个 访问 方法 如 何 被 协议 使 用 。 对 包含 远程 对 象 接口 信 
息 的 实例 变量 ， 解 释 其 类 型 选择 。 (第 154 页 ) 
定义 一 个 类 ,该 类 的 实例 表示 如 图 4-16 所 示 的 请 求 和 应 答 消 息 。 该 类 应 该 提供 一 对 构造 函数 ， 
一 个 构造 函数 用 于 请 求 消 息 ， 另 一 个 用 于 应 答 消息 ， 这 些 构造 函数 给 出 了 请 求 标识 符 是 如 何 
赋予 的 。 它 还 应 该 提供 将 自身 编码 成 字 节 数组 的 方法 和 将 字 节 数组 解码 成 一 个 实例 的 方法 。 


(第 154 页 ) 
利用 UDP 通 信 ， 但 不 增加 任何 容错 手段 ， 为 图 4-15 所 示 的 请 求 一 应 答 协议 的 三 个 操作 编程 。 
应 该 使 用 练习 4.13 和 练习 4.14 定 义 的 类 。 (第 156 页 ) 


概要 写 出 服务 器 的 实现 ， 说 明 创 建新 线程 执行 每 个 客户 请 求 的 服务 器 如 何 使 用 操作 
getRequest 和 sendReply。 说 明 服务 器 如 何 从 请 求 消息 中 将 requestLd 拷 贝 到 应 答 消息 以 及 它 如 


何 获得 客户 IP 地 址 和 端口 。 (第 156 页 ) 
定义 doOperation 方 法 的 一 个 新 版 本 , 它 在 等 待 应 答 消 息 时 可 设置 一 个 超时 。 超 过 超时 时 间 后 ， 
它 将 重 传 请 求 消息 za 次 。 如 果 仍 没有 应 答 ， 它 将 通知 调用 者 。 (第 158 页 ) 
描述 如 下 的 情形 : 客户 接收 到 一 个 对 早先 发 出 的 调用 的 应 答 。 (第 156 页 ) 
描述 请 求 一 应 答 协议 屏蔽 操作 系统 和 计算 机 网 络 异 构 性 的 方式 。 (第 156 页 ) 
讨论 下 列 操作 是 否 是 寡 等 的 : 

。 按 电梯 的 请 求 按钮 。 

。 将 数据 写 入 文件 。 

。 将 数据 追加 到 文件 。 

操作 不 应 该 与 任何 状态 相关 是 不 是 宕 等 的 必要 条 件 ? (第 158 页 ) 
解释 与 将 服务 器 端的 应 答 数 据 量 减 至 最 小 的 设计 选择 。 比 较 使 用 RR 和 RRA 协 议 时 ， 它 们 各 
自 的 存储 需求 。 (第 158 页 ) 
假设 使 用 的 是 RRA 协 议 。 服 务 器 应 该 把 未 确认 的 应 答 数据 保留 多 长 时 间 ? 为 了 接收 到 一 个 确 
认 ， 服 务 器 应 该 反复 地 发 送 应 答 吗 ? (第 158 页 ) 


为 什么 对 性 能 而 言 在 协议 中 交换 的 消息 数 比 发 送 的 数据 总 量 更 重要 ? 设计 RRA 协 议 的 一 个 变 
体 ， 采 用 撒 带 确认 法 ， 即 如 果 有 合适 的 下 一 个 请 求 ， 就 将 确认 在 该 消息 中 传输 ， 否 则 用 单独 
的 消息 发 送 确认 。 提 示 : 在 客户 端 附加 使 用 一 个 定时 器 。 (第 158 页 ) 
IP 组 播 提供 的 服务 存在 遗漏 故障 。 可 基于 图 4-20 中 的 程序 制作 一 个 测试 包 ， 用 于 发 现 组 播 消 
息 被 组 播 组 成 员 丢 弃 的 条 件 。 访 测试 包 应 该 能 允许 多 个 发 送 进程 。 (第 158 页 ) 
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设计 一 个 消息 重 传 机 制 ， 用 于 在 IP 组 播 中 克服 消息 丢失 的 问题 。 你 应 该 考虑 以 下 几 点 : 
“可 以 有 多 个 发 送 方 。 

“通常 只 有 一 小 部 分 消息 丢失 。 

。 与 请 求 一 应 答 协议 不 同 ， 接 收 方 没 必要 在 特定 时 间 限 制 内 发 送 消 息 。 


假设 没有 丢失 的 消息 按 发 送 方 的 顺序 到 达 。 (第 167 页 ) 
练习 4.25 的 解决 方案 应 该 克服 IP 组 播 中 的 消息 丢失 问题 。 你 的 解决 方案 在 什么 意义 上 与 可 靠 
组 播 的 定义 不 同 ? (第 167 页 ) 


设计 一 个 场景 ， 由 不 同 客户 发 送 的 组 播 按 不 同 的 顺序 传递 到 两 个 组 成 员 。 假 设 使 用 了 某 种 形 
式 的 消息 重 传 ， 但 未 丢失 的 消息 按 发 送 方 的 顺序 到 达 。 接 收 方 如 何 对 这 种 情况 加 以 补救 ? 
(第 167 页 ) 
利用 IP 组 播 ， 定 义 组 形式 的 请 求 一 应 答 交 互 的 语义 并 为 之 设计 一 个 协议 。 
(第 156 页 , 第 165 页 ) 
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第 5 章 “分布 式 对 象 和 远程 调用 


本 章 将 介绍 依靠 远程 方法 调用 (RMI) 的 分 布 式 对 象 之 间 的 通信 。 能 够 接收 远程 方法 调用 的 
对 象 称 为 远程 对 象 ， 远 程 对 象 实现 了 一 个 远程 接口 。 因 为 调用 者 与 被 调用 对 象 存在 分 别 故 障 的 可 
能 性 ， 所 以 RMI 与 本 地 调用 有 着 不 同 的 语义 。 虽 然 也 可 以 使 RMI 看 起 来 与 本 地 调用 非常 相似 ， 但 是 
这 种 完全 的 透明 性 未 必 是 人 们 所 希望 的 。 根 据 远 程 接口 定义 ， 接 口 编 译 器 会 自动 生成 用 于 参数 编 
码 、 参 数 解码 、 发 送 请 求 消 息 和 应 答 消息 的 代码 。 

远程 过 程 调用 之 于 RMI 就 像 过 程 调 用 之 于 对 象 调用 ， 本 章 将 通过 Sun RPC 实 例 研 究 简 要 描述 和 
阐明 远程 过 程 调用 。 

基于 事件 的 分 布 式 系统 允许 对 象 预订 在 感 兴趣 的 远程 对 象 上 发 生 的 事件 ， 并 且 在 这 样 的 事件 
发 生 时 接收 到 通知 。 事 件 和 通知 提供 了 一 种 在 异 构 对 象 间 进行 异步 通信 的 方式 。 本 登 将 把 Jini 分 布 
式 事件 规范 作为 一 个 实例 研究 。 

在 Java RMI 实 例 研究 中 将 对 RMI 的 使 用 进行 介绍 。 

第 20 章 是 关于 CORBA 的 实例 研究 ， 其 中 包括 CORBA RMI 和 CORBA 事 件 服务 两 方面 的 内 容 。 


5.1 简介 


本 章 涉 及 分 布 式 应 用 的 编程 模型 ， 分 布 式 应 用 是 指 由 运行 在 不 同 进程 中 的 相互 协作 的 程序 组 
成 的 应 用 。 这 样 的 程序 应 该 能 够 调用 其 他 进程 中 的 操作 ， 而 这 些 进程 通常 运行 在 不 同 的 计算 机 中 。 
为 了 做 到 这 一 点 ， 人 们 扩展 了 一 些 熟 悉 的 编程 模型 ， 然 后 将 它们 应 用 到 分 布 式 程序 中 : 

“最 早 的 也 是 最 为 人 们 所 熟知 的 扩展 就 是 将 传统 的 过 程 调 用 模型 扩展 为 远程 过 程 调用 模型 ， 远 

程 过 程 调 用 模型 允许 客户 程序 调用 运行 在 许多 独立 的 进程 中 的 服务 器 程序 中 的 过 程 ， 而 这 些 
服务 器 程序 通常 运行 在 不 同 于 该 客户 的 计算 机 进程 中 。 

“20 世 纪 90 年 代 ， 基 于 对 象 的 编程 模型 被 扩展 为 允许 不 同 进程 里 的 对 象 依 靠 远程 方 法 调用 

(Remote Method Invocation, RMI) 彼此 通信 。RMI 是 本 地 方法 调用 的 扩展 ， 它 允许 生存 在 一 
个 进程 中 的 对 象 调用 生存 在 另外 一 个 进程 中 的 对 象 的 方法 。 

“基于 事件 的 编程 模型 允许 对 象 接收 它 感 兴趣 的 对 象 上 发 生 的 事件 的 通知 。 这 一 模型 已 经 扩展 
为 允许 编写 基于 事件 的 分 布 式 程序 。 

注意 ， 我 们 用 术语 “RMI” 指 普通 情形 中 的 远程 方法 调用 一 一 它 不 应 该 与 远程 方法 调用 的 某 些 
特例 ， 如 Java RMI 相 混淆 。 当 前 ， 大 多 数 分 布 式 系统 软件 都 使 用 面向 对 象 的 语言 来 编写 ，RPC 可 
以 被 理解 为 与 RMI 相 关 。 因 此 ， 本 章 重点 阐述 RMI 和 事件 范 型 ， 它 们 都 将 应 用 于 分 布 式 对 象 。5.2 
节 将 介绍 分 布 式 对 象 之 间 的 通信 ， 接 下 来 讨论 RMI 的 设计 和 实现 。5.5 节 将 给 出 Java RMI 实 例 研 究 。 
RPC 将 在 5.3 节 的 Sun RPC 实 例 研究 中 讨论 。 在 第 19 章 中 ， 我 们 还 将 看 到 RPC 在 Web service 中 的 应 
用 。5.4 节 将 讨论 事件 和 分 布 式 通知 ， 而 更 深入 的 关于 CORBA 的 实例 研究 将 在 20 章 中 给 出 。 

中 间 件 在 进程 和 消息 传递 的 基本 构造 模块 之 上 提供 编程 模型 的 软件 称 为 中 间 件 。 中 间 件 野 使 
用 基于 进程 间 消 息 的 协议 来 提供 更 高 级 的 抽象 ， 如 远程 调用 和 事件 ， 参 见 图 5-1。 例 如 ， 远 程 方 法 
调用 抽象 就 是 基于 4.4 节 讨论 的 请 求 一 应 答 协 议 的 。 

中 间 件 的 一 个 重要 方面 是 提供 位 置 透明 性 和 与 具体 通信 协议 、 操 作 系 统 、 计 算 机 硬件 无 关 的 
独立 性 。 某 些 形 式 的 中 间 件 还 允许 以 不 同 的 编程 语言 编写 组 件 。 
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中 中 间 件 层 





图 5-1 中 间 件 层 


位 置 透 明 性 : 在 RPC 中 ， 调 用 某 一 过 程 的 客户 不 能 判断 该 过 程 是 运行 在 同一 个 进程 中 还 是 运 
行 在 不 同 的 进程 中 ， 甚 至 可 能 是 在 另外 一 台 计 算 机 上 。 客 户 也 不 必 知 道 服 务 器 的 位 置 。 类 似 地 ， 
在 RMI 中 ， 发 起 调用 的 对 象 也 不 能 判断 它 调用 的 对 象 是 否 在 本 地 ， 同 时 也 不 必 知 道 它 的 位 置 。 而 
且 在 基于 事件 的 分 布 式 程序 中 ,产生 事件 的 对 象 和 接收 事件 通知 的 对 象 都 无 需 知 道 对 方 的 位 置 。 

通信 协议 : 支持 中 间 件 抽象 的 协议 与 其 下 层 的 传输 协议 是 无 关 的 。 例 如 ， 请 求 一 应 答 协 议 既 
可 以 在 UDP 上 实现 ， 也 可 以 在 TCP 上 实现 。 

计算 机 硬件 : 4.3 节 已 经 描述 过 用 于 表示 外 部 数据 的 三 种 公认 的 标准 。 它 们 用 于 消息 编码 和 解 
码 。 它 们 隐藏 了 硬件 体系 结构 所 导致 的 不 同 ， 如 字 节 顺序 等 。 

操作 系统 : 中 间 件 层 提 供 的 更 高 级 的 抽象 是 与 其 下 层 的 操作 系统 无 关 。 

多 种 编程 语言 的 使 用 : 一 些 中间 件 允许 分 布 式 应 用 使 用 多 种 编程 语言 。 特 别 是 CORBA (参见 
第 20 章 ) ， 它 允许 客户 调用 以 不 同 的 编程 语言 编写 的 服务 器 程序 中 的 对 象 的 方法 。 而 这 是 通过 使 用 
接口 定义 语言 (Interface Definition Language, IDL) 来 定义 接口 而 实现 的 。IDL 将 在 下 节 中 讨论 。 


接口 


大 多 数 现代 编程 语言 提供 了 把 一 个 程序 组 织 成 一 系列 能 彼此 通信 的 模块 的 方法 。 模 块 之 间 的 
通信 可 以 依靠 模块 间 的 过 程 调用 ， 或 者 直接 访问 另外 一 个 模块 中 的 变量 来 实现 。 为 了 控制 模块 之 
间 可 能 的 交互 ， 必 须 为 每 一 个 模块 定义 显 式 的 接口 ， 模 块 接口 指定 可 供 其 他 模块 访问 的 过 程 和 变 
量 。 实 现 后 的 模块 就 隐藏 了 除 接口 以 外 的 所 有 信息 。 只 要 模块 的 接口 保持 相同 ， 模 块 的 实现 就 可 
以 随意 改变 而 不 影响 模块 的 使 用 者 。 

分 布 式 系统 中 的 接口 ”在 分 布 式 程序 中 ， 模 块 可 以 在 彼此 独立 的 进程 中 运行 。 让 运行 在 一 个 进 
程 中 的 模块 访问 另 一 个 进程 中 模块 的 变量 是 不 可 能 的 。 因 此 ， 用 于 RPC 或 者 RMI 的 模块 的 接口 不 能 
指定 对 变量 的 直接 访问 。 注 意 ，CORBA IDL 接 口 可 以 指定 属性 ， 这 看 起 来 好 像 打 破 了 上 述 规 则 。 
然而 ， 这 些 属性 也 不 可 以 直接 访问 ， 而 必须 通过 一 些 为 接口 自动 添加 的 getter 或 setter 过 程 来 访问 。 

在 本 地 过 程 调用 中 ， 参 数 传递 可 以 采用 传递 值 或 者 传递 引用 的 方式 ， 但 这 种 参数 传递 机 制 在 
调用 过 程 与 被 调用 过 程 位 于 不 同 进程 的 时 候 就 不 合适 了 。 在 分 布 式 程序 里 ， 模 块 接口 中 的 过 程 或 
方法 的 规约 把 参数 描述 为 输入 型 、 输 出 型 或 者 两 者 兼 而 有 之 。 输 入 型 参数 被 传递 给 远程 模块 ， 它 
先 通过 请 求 消息 发 送 参数 的 值 ， 然 后 将 这 些 值 提供 给 服务 器 作为 操作 执行 的 参数 。 输 出 型 参数 在 
应 答 消息 中 返回 ， 可 以 作为 调用 的 结果 或 者 替换 调用 环境 中 相应 变量 的 值 。 当 一 个 参数 既是 输入 
型 参数 又 是 输出 型 参数 时 ， 它 的 值 必 须 既 在 请 求 消 息 又 在 应 答 消息 中 传递 。 

本 地 模块 和 远程 模块 之 间 的 另 一 个 区 别 是 ， 一 个 进程 中 的 指针 在 其 他 远程 进程 里 是 无 效 的 。 
因此 ， 指 针 不 能 作为 参数 传递 ， 也 不 能 作为 远程 模块 调用 的 结果 返回 。 

下 面 将 分 别 讨论 最 初 的 客户 一 服务 器 模型 中 的 RPC 使 用 的 接口 和 分 布 式 对 象 模型 中 RMI 使 用 的 
接口 : 

服务 接口 : 在 客户 一 服务 器 模型 下 ， 每 个 服务 器 提供 一 系列 供 客户 使 用 的 过 程 。 例 如 ， 文 件 
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服务 器 会 提供 读 写 文件 的 过 程 。 术 语 服 务 接口 指 由 服务 器 提供 的 过 程 规约 ， 它 定义 了 每 个 过 程 中 


的 输入 、 输 出 参数 的 类 型 。 


远程 接口 : 在 分 布 式 对 象 模型 中 ， 远 程 接口 指定 了 可 供 其 他 进程 中 的 对 象 进行 调 用 的 对 象 的 
方法 ， 它 定义 了 每 个 方法 的 输入 、 输 出 参数 的 类 型 。 然 而 ， 与 服务 接口 的 一 个 很 大 的 不 同 在 于 远 
程 接口 中 的 方法 可 以 把 对 象 作为 参数 或 者 方法 的 返回 结果 进行 传递 。 另 外 ， 远 程 对 象 引 用 也 可 以 


传递 
远程 对 象 引用 的 内 容 。) 





不 能 把 远程 对 象 引 用 的 概念 与 指针 混淆 ， 指 针 描 述 的 是 特定 的 内 存 地 址 。(4.3.3 节 描述 了 


服务 接口 和 远程 接口 都 不 能 指定 对 变量 的 直接 访问 。 后 者 还 禁止 直接 访问 对 象 的 实例 变量 。 

接口 定义 语言 RMI 机 制 可 以 集成 到 某 种 编程 语言 中 ， 只 要 该 语言 包含 适当 的 定义 接口 的 表示 
法 ， 并 允许 将 输入 和 输出 参数 映射 成 该 语言 中 正常 使 用 的 参数 。Java RMI 就 是 将 RMI 机 制 添加 到 
面向 对 象 编程 语言 的 一 个 例子 。 当 一 个 分 布 式 应 用 的 所 有 部 分 都 是 用 同一 种 语言 编写 时 ， 这 种 方 
法 非常 有 效 。 因 为 它 允许 程序 员 用 一 种 语言 实现 本 地 调用 和 远程 调用 ， 所 以 这 种 方法 也 很 方便 。 

然而 ， 许 多 现 有 的 有 用 的 服务 是 用 C++ 和 其 他 语言 编写 的 。 为 了 满足 远程 访问 的 需要 ， 人 允许 程 


序 采 用 包括 Java 在 内 的 各 种 语言 编写 是 非常 有 
益 的 。 接 口 定义 语言 (IDL) 允许 以 不 同 语言 
实现 对 象 以 便 相互 调用 。IDL 提 供 了 一 种 定义 
接口 的 表示 法 ， 接 口中 方法 的 每 个 参数 可 以 在 
类 型 声明 之 外 附加 输入 或 输出 类 型 说 明 。 

图 5-2 给 出 了 CORBA IDL 的 一 个 简单 例子 。 
Person 结 构 与 4.3.1 节 中 用 于 说 明 编 码 的 结构 相 
同 。 名 为 PersonList 的 接口 指定 了 实现 这 个 接 
口 的 远程 对 象 中 对 RMI 可 用 的 方法 。 例 如 ， 方 
法 addPerson 指 定 它 的 参数 是 输入 型 ， 意 味 着 它 
是 一 个 输入 型 参数 。 而 方法 getPerson 是 通过 名 
字 检 索 一 个 Person 实 例 ， 它 将 其 第 二 个 参数 指 
定 为 out 型 ， 意 味 着 这 是 一 个 输出 型 参数 。 

我 们 的 实例 研究 包括 了 CORBA IDL 和 Sun 


// 在 文件 Person.id! 中 
struct Person{ 
string name ; 
string place ; 
long year ; 
} ; 
interface PersonLisi{ 
readonly attribute string listname ， 


void addPerson { in Personp }; 


void getPerson { in string name , out Person p ); 


long number ( ); 





图 5-2 CORBA IDL 的 例子 


XDR， 其 中 CORBA IDL 是 RMI 的 一 种 IDL (参见 第 20 章 )， 而 Sun XDR 是 RPC 的 一 种 IDL (参见 5.3 
节 )。 而 Web 服 务 描述 语言 WSDL) 则 是 一 种 因特网 范围 内 的 RPC (参见 19.3 节 ) 。 

其 他 例子 包括 用 于 OSF 的 分 布 式 计算 环境 (DCE) 中 的 RPC 系 统 的 接口 定义 语言 [OSF 1997]， 
它 使 用 C 语 言 的 语法 ， 也 称 为 IDL。 还 有 DCOM IDL， 它 是 建立 在 DCE IDL 基 础 上 的 [Box 1998]， 


用 于 微软 的 分 布 式 组 件 对 象 模型 《DCOM)。 
5.2 分 布 式 对 象 间 的 通信 


分 布 式 系统 中 基于 对 象 的 模型 扩展 了 面向 对 象 编程 语言 支持 的 模型 ， 使 得 它 能 适用 于 分 布 式 
对 象 。 本 节 将 介绍 分 布 式 对 象 间 通过 RMI 方 式 的 通信 。 本 节 将 讨论 以 下 几 个 方面 : 
对 象 模型 : 对 象 模型 相关 内 容 的 简单 回顾 ， 适 合 有 具有 某 种 面向 对 象 编程 语言 (如 Java 或 C++) 


的 基础 知识 的 读者 阅读 。 


分 布 式 对 象 : 介绍 基于 对 象 的 分 布 式 系统 ， 论 证 对 象 模型 非常 适合 于 分 布 式 系统 。 
分 布 式 对 象 模型 讨论 将 对 象 模型 进行 必要 的 扩展 以 支持 分 布 式 对 象 。 


设计 问题 : 一 系列 关于 设计 方案 的 讨论 : 


1) 只 执行 一 次 本 地 调用 ， 但 有 没有 更 适合 远程 调用 的 语义 呢 ? 
2) RMI 的 语义 如 何 才能 与 本 地 方法 调用 相似 ， 有 哪些 差别 不 能 被 消除 ? 
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实现 : 关 述 了 在 请 求 一 应 答 协 议 之 上 ， 如 何 设计 中 间 件 层 ， 使 其 支持 应 用 层 分 布 式 对 象 间 
的 RMI。 


分 布 式 无 用 单元 收集 : 介绍 适用 于 RMI 实 现 的 分 布 式 无 用 单元 收集 的 一 种 算法 。 


5.2.1 对 象 模型 

用 Java 或 C++ 等 语言 编写 的 面向 对 象 程序 由 一 个 交互 对 象 集合 组 成 ， 其 中 每 个 对 象 包含 若干 数 
据 和 方法 。 一 个 对 象 与 其 他 对 象 通过 调用 对 方 的 方法 进行 通信 ， 通 常 要 传递 参数 和 接收 结果 。 对 
象 可 以 封装 它们 的 数据 和 方法 的 代码 。 有 些 语言 (如 Java 和 C++) 允许 程序 员 定义 其 实例 变量 可 以 
被 直接 访问 的 对 象 。 但 是 在 分 布 式 对 象 系统 应 用 中 ， 一 个 对 象 的 数据 应 该 只 能 通过 其 方法 来 访问 。 

对 象 引用 对象 可 以 通过 对 象 引 用 来 访问 。 例 如 ， 在 Java 中 ， 一 个 变量 看 上 去 拥有 一个 对 象 ， 
但 实际 上 只 拥有 对 该 对 象 引 用 。 为 了 调用 对 象 的 一 个 方法 ， 需 要 给 出 对 象 引 用 和 方法 名 ， 以 及 必 
要 的 参数 。 其 方法 被 调用 的 对 象 有 时 候 称 为 目标 ， 有 时 候 称 为 接收 者 。 对 象 引 用 具有 极 高 的 价值 ， 
因为 它们 可 以 赋 给 变量 ， 也 可 作为 参数 传递 或 者 作为 方法 的 结果 返回 。 

接口 接口 在 无 需 指定 其 实现 的 情况 下 提供 了 一 系列 方法 基调 的 定义 〔 即 参数 的 类 型 、 返 回 什 
和 异常 )。 如 果 类 包含 实现 接口 中 方法 的 代码 ， 那 么 就 称 对 象 提供 该 接 口 。 在 Java 中 ， 一 个 类 可 以 
实现 几 个 接口 ， 而 一 个 接口 的 方法 也 可 以 由 任意 类 实现 。 接 口 还 可 以 定义 用 于 声明 参数 类 型 、 变 
最 类 型 及 方法 返回 值 的 类 型 ， 注 意 ， 接 口 没有 构造 函数 。 

动作 在 面向 对 象 程序 中 ,动作 由 调用 另 一 个 对 象 的 方法 的 对 象 启动 。 调 用 可 以 包含 执行 方法 
个 于) 着 当 有 方 法 ， 然 后 将 控制 返回 给 调用 对 旬 ， 有 时 候 会 提供 一 

结果 。 方 法 的 调用 会 产生 三 个 结果 。 

接收 者 的 状态 会 发 和 政变。 

2) 可 以 实例 化 一 个 新 的 对 象 ， 例 如 使 用 Java 或 Ct+ 中 的 构造 函数 进行 实例 化 。 

3) 可 能 会 在 其 他 对 象 中 发 生 其 他 方法 调用 。 

因为 调用 可 能 导致 其 他 对 象 对 方法 的 调用 ， 所 以 动作 就 是 一 连 串 相关 的 方法 调用 ， 每 个 调用 
最 终 都 会 返回 。 这 里 的 解释 没有 考虑 异常 。 

异常 程序 可 能 会 遇 到 各 种 错误 和 无 法 预计 的 严重 状况 。 在 方法 执行 期 闻 ， 会 发 现 许多 不 同 的 
问题 ， 例 如 ， 对 象 变量 的 值 不 一 致 ， 无 法 读 写 文件 或 网 络 套 接 字 。 为 此 ， 程 序 员 需 要 在 他 们 的 代 
码 中 插入 测试 语句 以 处 理 所 有 不 常 出 现 的 情况 或 出 错 情况 ， 但 这 会 降低 正常 情况 下 的 代码 的 清晰 
性 。 利 用 异常 ， 便 可 以 在 不 使 代码 复杂 化 的 情况 下 清晰 处 理 错误 条 件 。 另 外 ， 每 个 方法 的 标题 都 
清楚 地 列 出 了 产生 异常 的 错误 条 件 ， 以 便 方法 的 用 户 去 处 理 它们 。 可 以 定义 一 块 代码 ， 以 便 在 蘑 
种 不 期 望 发 生 的 条 件 或 错误 出 现 的 时 候 抛 出 异常 。 这 意味 着 要 将 控制 传递 给 另 一 块 用 于 捕获 异常 
的 代码 。 控 制 不 会 再 返回 到 抛 出 异常 的 地 方 。 

无 用 单元 收集 当 不 再 需要 对 象 时 有 必要 提供 一 种 手段 释放 其 占用 的 空间 。 有 的 语言 (如 Java) 
可 以 自动 检测 出 什么 时 候 该 收回 一 个 已 经 不 再 访问 的 对 象 占据 的 空间 ， 并 将 此 空间 分 配给 其 他 对 
象 使 用 。 这 个 过 程 称 为 无 用 单元 收集 。 有 的 语言 (例如 C++) 不 支持 无 用 单元 收集 ， 那么 程序 员 必 
须 自 己 处 理 释放 分 配给 对 象 的 空间 的 问题 。 这 是 一 个 主要 的 出 错 源 。 


5.2.2 分 布 式 对 象 


对 象 的 状态 由 它 的 实例 变量 值 组 成 。 在 基于 对 象 的 范 型 中 ， 程 序 的 状态 被 划分 为 儿 个 单独 的 
部 分 ， 每 个 部 分 都 与 一 个 对 象 关 联 。 因 为 基于 对 象 的 程序 是 从 逻辑 上 划分 的 ， 所 以 在 分 布 式 系统 
中 可 以 很 自然 地 将 对 象 物理 地 分 布 在 不 同 的 进程 或 计算 机 中 。 

分 布 式 对 象 系 统 可 以 采用 客户 一 服务 器 体系 结构 。 在 此 情形 下 ， 对 象 由 服务 器 管理 ， 它 们 的 
客户 通过 远程 方法 调用 来 调用 它们 的 方法 。 在 RMI 中 ， 客 户 调用 一 个 对 象 方法 的 请 求 以 消息 的 形 
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式 传送 到 管理 该 对 象 的 服务 器 ， 通 过 在 服务 器 端 执行 对 象 的 方法 来 完成 该 调用 ， 并 将 处 理 的 结果 
通过 另 一 个 消息 返回 给 客户 。 考 虑 到 会 有 一 连 串 的 相关 调用 ， 因 此 服务 器 中 的 对 象 也 可 以 成 为 其 
他 服务 器 中 对 象 的 客户 。 

分 布 式 对 象 也 可 以 采用 其 他 体系 结构 模型 。 例 如 ， 为 了 获得 良好 的 容错 性 并 提高 性 能 ， 可 以 
复制 对 象 。 又 如 ， 为 了 改善 性 能 和 可 用 性 ， 可 以 迁移 对 象 。 

将 客户 和 服务 器 对 象 分 布 在 不 同 的 进程 中 ， 可 提高 封装 性 。 也 就 是 说 ， 一 个 对 象 的 状态 只 能 
被 该 对 象 的 方法 访问 ， 这 意味 着 不 可 能 让 未 经 授权 的 方法 作用 于 该 对 象 状态 。 例 如 ， 不 同 计算 机 
上 的 对 象 可 能 会 并 发 RMI， 这 意味 着 可 能 会 并 发 地 访问 一 个 对 象 ， 也 就 可 能 出 现 访问 冲突 。 然 而 ， 
对 象 的 数据 只 能 由 其 自己 的 方法 访问 这 一 事实 允许 对 象 提供 保护 自身 免 遭 不 正确 访问 的 方法 。 例 
如 ， 它 们 会 使 用 条 件 变量 这 样 的 同步 原 语 来 保护 对 它们 的 实例 变量 的 访问 。 

将 分 布 式 程序 的 共享 状态 视 为 一 个 对 象 集 的 另 一 个 好 处 是 ， 对 象 可 以 通过 RMI 来 访问 ， 若 类 
是 本 地 实现 的 话 ， 可 将 对 象 拷贝 到 一 个 本 地 缓存 并 进行 直接 访问 。 

对 异 构 系统 而 言 ， 对 象 只 能 由 其 方法 访问 这 个 事实 还 有 一 个 好 处 ， 即 在 不 同 场合 使 用 的 不 同 
数据 格式 一 一 使 用 RMI 访 问 对 象 方法 的 客户 不 会 注意 到 数据 格式 的 不 同 。 

5.2.3 分 布 式 对 象 模型 

本 证 将 讨论 对 象 模型 的 扩展 以 便 使 它 可 以 用 于 分 布 式 对 象 。 每 个 进程 包含 若干 对 象 ， 其 中 有 
些 对 象 既 可 以 接收 远程 调用 又 可 以 接收 本 地 调用 ， 而 其 他 对 象 只 能 接收 本 地 调用 ， 如 图 5-3 所 示 。 
不 管 是 否 在 同一 台 计 算 机 内 ， 不 同 进程 中 的 对 象 之 间 的 方法 调用 都 被 认为 是 远程 方法 调用 。 在 同 
一 进程 中 的 对 象 间 的 方法 调用 称 为 本 地 方法 调用 。 





图 5-3 远程 和 本 地 方法 调用 


我 们 将 能 够 接收 远程 调用 的 对 象 称 为 远程 对 象 。 在 图 5-3 中 ,对象 B 和 F 是 远程 对 象 。 所 有 对 象 
都 能 够 接收 本 地 调用 ， 当 然 它们 只 能 接收 来 自 拥 有 该 对 象 引用 的 其 他 对 象 发 出 的 本 地 调用 。 例 如 ， 
对 象 C 必 须 具 有 对 对 象 E 的 引用 ， 这 样 它 才 可 以 调用 BE 的 方法 。 下 面 两 个 基本 概念 是 分 布 式 对 象 模 
型 的 核心 : 

远程 对 象 引 用 : 如 果 对 象 能 访问 远程 对 象 的 远程 对 象 引 用 ， 那 么 它们 就 可 以 调用 该 远程 对 象 
上 的 方法 。 例 如 ， 在 图 5-3 中 ，B 的 远程 对 象 引 用 必须 对 A 是 可 用 的 。 

远程 接口 : 每 个 远程 对 象 都 有 一 个 远程 接口 ， 由 该 接口 指定 哪些 方法 可 以 被 远程 调用 。 例 如 ， 
对 象 B 和 F 必 须 具 有 远程 接口 。 

下 面 将 讨论 远程 对 象 引 用 、 远 程 接口 和 分 布 式 对 象 摸 型 的 其 他 方面 。 

远程 对 象 引 用 对象 引用 的 概念 要 加 以 扩展 ， 使 那些 能 接收 RMI 的 对 象 都 具有 远程 对 象 引用 。 
远程 对 象 引 用 是 一 个 可 以 用 于 整个 分 布 式 系统 的 标识 符 ， 它 指向 某 个 唯一 的 远程 对 象 。 它 的 表示 
通常 与 本 地 对 象 引用 不 同 ， 我 们 已 经 在 4.3.4 节 中 讨论 过 了 。 远 程 对 象 引 用 与 本 地 对 象 引用 主要 在 
以 下 两 方面 类 似 : 

1) 调用 者 通过 远程 对 象 引用 指定 接收 远程 方法 调用 的 远程 对 象 。 

2) 远程 对 象 引用 可 以 作为 远程 方法 调用 的 参数 和 结果 传递 。 
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远程 接口 、 远 程 对 象 的 类 实现 其 远程 接口 中 的 方法 ， 例 如 在 Java 中 作为 公有 实例 方法 实现 。 其 
他 进程 中 的 对 象 只 能 调用 属于 其 远程 接口 的 方法 ， 如 图 5-4 所 示 。 本 地 对 象 可 以 调用 远程 接口 中 的 
方法 和 远程 对 象 实现 的 其 他 方法 。 注 意 ， 和 所 有 的 接口 一 样 ， 远 程 接口 没有 构造 函数 。 





图 5-4 远程 对 象 及 其 远程 接口 


CORBA 系 统 提供 了 一 种 接口 定义 语言 (IDL) ， 用 于 定义 远程 接口 。 图 5-2 是 一 个 用 CORBA 
IDL 定 义 的 远程 接口 的 例子 。 远 程 对 象 的 类 和 客户 程序 可 以 用 任何 IDL 编 译 器 适用 的 语言 实现 ， 如 
C++、Java 或 Python。CORBA 客 户 不 需要 为 了 远程 调用 其 方法 而 使 用 与 远程 对 象 相同 的 语言 。 

在 Java RMI 中 ， 远 程 接口 以 和 任何 其 他 Java 接 口 相同 的 方式 定义 。 它 们 通过 扩展 一 个 名 为 
Remote 的 接口 而 获得 远程 接口 的 能 力 。CORBA IDL (参见 20.2.3 节 ) 和 Java 都 支持 接口 的 多 重 继 
承 ， 即 一 个 接口 可 以 扩展 一 个 或 多 个 其 他 接口 。 

分 布 式 对 象 系统 中 的 动作 ”和 非 分 布 式 的 情形 类 似 ， 一 个 动作 是 由 方法 调用 启动 的 ， 这 可 能 会 
导致 其 他 对 象 上 的 方法 调用 。 但 是 在 分 布 式 情 形 下 ， 涉 及 一 连 串 相关 调用 的 对 象 可 能 处 于 不 同 的 
进程 或 不 同 的 计算 机 中 。 当 调用 跨越 了 进程 或 计算 机 边界 的 时 候 ， 就 要 使 用 RMI。 此 时 ， 对 象 的 
远程 引用 必须 对 调用 者 是 可 用 的 。 在 图 5-3 中 ， 对 象 A 需 要 有 到 对 象 B 的 远程 对 象 引 用 。 远 程 对 象 引 
用 可 以 作为 远程 方法 调用 的 结果 返回 。 例 如 ， 图 5-3 中 的 对 象 A 可 以 从 对 象 B 得 到 一 个 对 对 象 F 的 远 
程 引 用 。 

当 一 个 动作 导致 一 个 新 的 对 象 被 实例 化 时 ， 这 个 对 象 的 生命 周期 通常 就 是 实例 化 该 对 象 的 进 
程 的 生命 周期 ， 例 如 ， 使 用 构造 函数 时 。 如 果 这 个 新 实例 化 的 对 象 有 远程 接口 ， 那 么 它 就 是 一 个 
拥有 远程 对 象 引 用 的 远程 对 象 。 

分 布 式 应 用 可 以 提供 一 些 远程 对 象 ， 通 过 这 些 对 象 提供 的 方法 ， 可 以 实例 化 另 一 些 对 象 ， 而 
这 些 新 实例 化 的 对 象 可 以 通过 RMI 来 访问 。 这 种 方式 提供 了 一 种 有 效 的 实例 化 远程 对 象 的 方式 。 
例如 ， 在 图 5-5 中 ， 假 设 对 象 L 包 含 能 生成 远程 对 象 的 方法 ， 则 来 自 对 象 C 和 对 象 K 的 远程 调用 将 分 
别 导致 对 象 M 和 对 象 N 的 实例 化 。 


Eg 





例 化 ”实例 化 
0 


图 5-5 远程 对 象 的 实例 化 


分 布 式 对 象 系统 中 的 无 用 单元 收集 ”如果 语言 (例如 Java) 支持 无 用 单元 收集 ， 那 么 任何 与 之 
相关 的 RMI 系 统 也 应 该 支持 远程 对 象 的 无 用 单元 收集 。 分 布 式 无 用 单元 收集 通常 通过 已 有 的 本 地 
无 用 单元 收集 器 和 一 个 执行 分 布 式 无 用 单元 收集 的 附加 模块 〈 一 般 基 于 引用 计数 ) 的 协作 来 实现 。 
5.2.6 节 对 此 做 了 详尽 的 描述 。 如 果 语 言 不 支持 无 用 单元 收集 ， 那 么 无 用 的 远程 对 象 应 当 被 删除 。 
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异常 任何 远程 调用 都 可 能 会 因为 被 调用 对 象 的 种 种 原因 而 失败 (这 里 被 调用 的 对 象 处 于 与 调 
用 对 象 不 同 的 进程 或 计算 机 中 )。 例 如 ， 包 含 远程 对 象 的 进程 可 能 已 经 崩溃 ， 或 者 由 于 太 忙 而 无 法 
应 答 ， 又 或 者 调用 消息 或 结果 消息 丢失 了 。 因 此 ， 远 程 方法 调用 应 该 能 够 引起 异常 ， 比 如 因 分 布 
引起 的 超时 异常 ， 以 及 被 调用 的 方法 执行 期 间 导 致 的 各 种 异常 。 后 者 的 例子 有 超过 文件 末尾 的 读 
操作 ， 或 者 未 经 正确 授权 的 文件 访问 。 

CORBA IDL 提 供 了 指定 应 用 级 异常 的 表示 法 。 当 因为 分 布 而 引起 错误 时 ， 底 层 系统 生成 标准 
异常 。CORBA 客 户 程序 要 能 处 理 异 常 ， 例 如 ， 一 个 C++ 客户 程序 会 使 用 C++ 中 的 异常 机 制 。 


5.2.4 RMI 的 设计 问题 

前 面 已 经 指出 ，RMI 是 本 地 方法 调用 的 自然 扩展 。 本 节 将 讨论 在 进行 扩展 时 出 现 的 设计 问题 ; 

。 调用 语义 的 选择 一 一 虽然 本 地 调用 只 执行 一 次 ， 但 它 并 不 一 定 适用 于 远程 方法 调用 的 场合 。 

。 对 RMI 而 言 最 合适 的 透明 性 级 别 。 

在 5.2 节 的 余下 部 分 ， 我们 将 把 驻 留 了 远程 对 象 的 进程 作为 服务 器 ， 把 驻 留 调 用 者 的 进程 作为 
客户 。 服 务 器 也 可 能 是 客户 。 

RMI 调 用 语义 ”4.4 节 讨 论 了 请 求 一 应 答 协议 ,在 该 节 中 说 明了 可 以 通过 不 同 的 方式 实现 
doOperation 以 提供 不 同 的 传输 保证 。 主 要 的 选择 有 : 

。 重 发 请 求 消息 : 是 否 要 重 发 请 求 消息 ， 直 到 接收 到 应 答 或 者 认定 服务 器 已 经 出 现 故障 为 止 。 

， 过 滤 重 复 请 求 :， 当 启用 重 传 请 求 的 上 时候， 是 否 要 在 服务 器 过 滤 掉 重复 的 请 求 。 

*， 重 传 结果 ; 是 否 要 在 服务 器 上 保存 结果 消息 的 历史 ， 以 便 无 需 重新 执行 服务 器 上 的 操作 就 

能 重 传 丢 失 的 结果 。 

将 这 些 选 择 组 合 使 用 便 导致 了 调用 者 所 见 到 的 远程 调用 可 靠 性 的 各 种 可 能 语义 。 图 5-6 给 出 了 
有 关 选 择 及 其 产生 的 调用 语义 名 。 注 意 ， 对 于 本 地 方法 调用 ,语义 是 恰好 一 次 ， 意 味 着 每 个 方法 
都 恰好 执行 一 次 。RMI 调 用 语义 定义 如 下 : 





重新 执行 过 程 





不 适用 
重新 执行 过 程 
重 传 应 答 








图 5-6 调用 语义 

或 许 调用 语义 : 采用 或 许 调用 语义 ， 远 程 方法 可 能 执行 一 次 或 者 根本 不 执行 。 当 没有 使 用 任 
何 容错 措施 的 时 候 ， 就 启用 了 或 许 语义 。 它 可 能 会 遇 到 以 下 的 故障 类 型 

“遗漏 故障 ， 如 果 调 用 或 结果 消息 丢失 。 

“系统 崩溃 ， 由 于 包含 远程 对 象 的 服务 器 出 现 故障 。 

如 果 在 超时 后 没有 接收 到 结果 消息 ， 并 且 也 不 再 重 发 请 求 消息 的 话 ， 那 么 该 方法 是 否 执行 过 
就 不 能 确定 。 如 果 调 用 消息 丢失 了 ， 那 么 该 方法 就 不 会 执行 。 另 一 方面 ， 方 法 也 可 能 执行 过 了 ， 
只 是 结果 消息 丢失 了 。 系 统 崩 省 可 能 发 生 在 方法 执行 之 前 ， 也 可 能 发 生 在 方法 执行 之 后 。 此 外 ， 
在 异 构 系 统 中 ， 方 法 执行 返回 的 结果 可 能 会 在 超时 后 才 到 达 。 或 许 语义 仅 对 那些 可 以 接受 偶然 调 
用 失败 的 应 用 是 有 用 的 。 

至 少 一 次 调用 语义 : 采用 至 少 一 次 调用 语义 ， 调 用 者 可 能 收 到 返回 的 结果 ， 也 可 能 收 到 一 个 
异常 。 在 收 到 返回 结果 的 情况 下 ， 调 用 者 知道 该 方法 至 少 执行 过 一 次 ， 而 异常 信息 则 通知 它 没有 
接收 到 执行 结果 。 至 少 一 次 调用 语义 可 以 通过 重 发 请 求 消息 来 达到 ， 它 屏蔽 了 调用 或 结果 消息 的 
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遗漏 故障 。 至 少 一 次 调用 语义 可 能 会 遇 下 列 类 型 的 故障 : 

。 由 于 包含 远程 对 象 的 服务 器 故障 而 引起 的 系统 崩溃 。 

。 随 机 故障 。 重 发 调用 消息 时 ， 远 程 对 象 可 能 会 接收 到 这 一 消息 并 多 次 执行 某 一 方法 ， 结 果 导 

致 存储 或 返回 了 错误 的 值 。 

第 4 章 定 义 了 敌 等 操作 ， 这 种 操作 反复 执行 后 的 结果 与 只 执行 一 次 的 结果 一 样 。 非 咽 等 操作 在 
多 次 执行 之 后 可 能 会 出 现 错误 的 结果 。 例 如 ， 一 个 向 银行 账户 增加 10 美 元 的 操作 只 应 该 执行 一 次 ， 
如 果 重 复 执行 的 话 ， 存 款 余额 就 可 能 不 断 增 加 ! 如 果 能 设计 服务 器 中 的 对 象 使 其 远程 接口 中 所 有 
的 方法 都 是 实 等 操作 的 话 ， 那 么 至 少 一 次 调用 语义 是 可 以 接受 的 。 

至 多 一 次 调用 语义 : 采用 至 多 一 次 调用 语义 ,调用 者 可 以 接收 返回 的 结果 ， 也 可 以 接收 一 个 
异常 。 在 接收 返回 结果 的 情况 下 ， 调 用 者 知道 该 方法 恰好 执行 过 一 次 。 而 异常 信息 则 通知 调用 者 
没有 收 到 执行 结果 。 在 这 种 情形 下 ， 方 法 要 么 执行 过 一 次 ， 要么 根本 没有 执行 。 至 多 一 次 调用 语 
义 可 以 通过 使 用 所 有 的 容错 措施 来 达到 。 正 如 前 面 的 情形 ， 重 发 请 求 消息 可 以 屏蔽 所 有 调用 或 结 
果 消 息 的 遗漏 故障 。 另 外 的 容错 措施 通过 确保 每 个 RMI 方 法 永远 执行 不 超过 一 次 来 避免 随机 故障 。 
在 Java RMI 和 CORBA 中 ， 调 用 语义 都 是 至 多 一 次 ,但 CORBA 也 允许 采用 或 许 语义 ， 用 于 那些 不 
返回 结果 的 方法 。Sun RPC 提 供 至 少 一 次 调用 语义 。 

透明 性 RPC 的 创始 人 Birrell 和 Nelson[1984] 致 力 于 使 远程 过 程 调 用 与 本 地 过 程 调 用 尽 可 能 相 
似 ， 使 得 本 地 过 程 调用 和 远程 过 程 调用 在 语法 上 没有 差别 。 所 有 对 编码 和 消息 传递 过 程 的 必要 调 
用 都 对 编写 调用 的 程序 员 面 隐藏 起 来 。 尽 管 请 求 消息 在 超时 后 重新 发 送 ， 但 这 对 调用 者 而 言 也 是 
透明 的 一 一 使 远程 过 程 调用 的 语义 与 本 地 过 程 调用 的 语义 相似 。 透 明 性 概念 可 以 被 扩展 以 应 用 到 分 
布 式 对 象 中 ， 但 是 它 不 仅 涉 及 隐藏 编码 和 消息 传递 过 程 ， 而 且 还 涉及 定位 和 连接 远程 对 象 的 任务 。 
举例 来 说 ，Java RMI 通 过 允许 使 用 相同 的 语法 令 远 程 方法 调用 和 本 地 调用 非常 相似 。 

然而 ， 远 程 调 用 比 本 地 调用 更 容易 失败 ， 因 为 它们 涉及 网 络 、 另 一 台 计算 机 和 另 一 个 进程 。 
不 论 选 择 上 述 哪 种 调用 语义 ， 总 有 可 能 接收 不 到 结果 ， 而 且 在 出 现 故障 的 情况 下 ， 不 可 能 判别 故 
障 是 源 于 网 络 的 失效 还 是 源 于 远程 服务 器 进程 的 故障 。 这 就 要 求 发 出 远程 调用 的 对 象 能 够 从 这 样 
的 情形 中 恢复 。 

远程 调用 的 延迟 要 比 本 地 调用 的 延迟 大 好 几 个 数量 级 。 这 表明 ， 利 用 远程 调用 的 程序 要 把 延 
迟 因素 考虑 进去 ， 比 如 尽 可 能 减少 远程 交互 等 。Argus[Liskov and Scheifler 1982] 的 设计 者 建议 调 
用 者 应 该 能 够 中 止 那 种 花费 了 很 长 时 间 但 是 对 服务 器 却 毫 无 效果 的 远程 过 程 调用 。 为 了 做 到 这 一 
点 ， 服 务 器 要 能 恢复 到 过 程 调用 之 前 的 状态 。 这 些 问 题 将 在 第 13 章 讨论 。 

Waldo 等 [1994] 认 为 ， 本 地 对 象 和 远程 对 象 之 间 的 不 同 应 该 表现 在 远程 接口 上 ， 让 对 象 对 可 能 
出 现 的 部 分 故障 以 一 致 的 方式 做 出 反应 。 有 些 系统 ， 比 起 这 种 关于 远程 调用 的 语法 是 否 应 该 与 本 
地 调用 不 同 的 争论 来 ， 有 些 系统 则 做 出 了 实际 性 改进 。 以 Argus 为 例 ， 它 已 被 扩展 到 远程 操作 对 于 
程序 员 而 言 是 显 式 的 程度 。 

IDL 的 设计 者 也 会 面临 远程 调用 是 否 应 该 透明 的 抉择 。 例 如 ， 在 CORBA 中 ， 当 客户 不 能 与 远 
程 对 象 通信 和 时， 远程 调用 就 会 抛 出 一 个 异常 。 客 户 程序 应 该 能 处 理 这 一 异常 ， 并 解决 此 类 故障 。 
IDL 也 可 以 提供 … 种 指定 方法 的 调用 语义 的 机 制 ， 这 对 于 远程 对 象 的 设计 者 是 有 帮助 的 一 一 例如 ， 
倘若 为 了 避免 至 多 一 次 造成 的 系统 开销 而 选择 了 至 少 一 次 调用 语义 ， 那 么 对 象 的 操作 应 该 被 设计 
成 笑 等 的 。 

当前 比较 一 致 的 意见 是 ， 从 远程 调用 的 语法 与 本 地 调用 的 语法 一 致 的 角度 看 ， 远 程 调用 应 该 
是 透明 的 ， 但 本 地 对 象 和 远程 对 象 间 的 不 同 应 该 表现 在 它们 的 接口 上 。 在 Java RMI 中 ， 能 通过 实 
现 Remote 接 口 和 抛 出 RemoteExceptions 异 常 的 事实 来 区 分 远程 对 象 。 用 IDL 指 定 其 接口 的 远程 对 象 
的 实现 者 显然 了 解 其 不 同 。 通 过 远程 调用 来 访问 对 象 的 知识 对 对 象 的 设计 者 而 言 还 有 另 一 层 含 义 ， 
即 它 应 该 能 在 多 个 客户 并 发 访问 的 情况 下 保证 状态 的 一 致 性 。 
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5.2.5 RMI 的 实现 

完成 远程 方法 调用 涉及 几 个 独立 的 对 象 和 模块 。 如 图 5-7 所 示 ， 一 个 应 用 级 对 象 A 拥 有 一 个 对 B 
的 远程 对 象 引用 ， 可 以 调用 远程 应 用 级 对 象 B 的 一 个 方法 。 本 节 将 讨论 图 中 每 一 个 组 件 扮演 的 角色 ， 
首先 讨论 通信 和 远程 引用 模块 ， 然 后 讨论 运行 在 模块 上 面 的 RMI 软 件 。 





图 5-7 在 远程 方法 调用 中 的 代理 和 骨架 角色 


除 此 之 外 ， 本 节 将 讨论 以 下 几 个 主题 : 代理 的 创建 、 将 名 字 绑 定 到 它们 的 远程 对 象 引 用 、 对 
象 的 激活 和 钝 化 以 及 根据 远程 对 象 引 用 进行 对 象 定 位 。 

通信 模块 ”两 个 相互 协作 的 通信 模块 执行 请 求 一 应 答 协议 ， 它 们 在 客户 和 服务 器 之 间 传 递 请 求 
和 应 答 消 息 。 请 求 和 应 答 消息 的 内 容 见 图 4-16。 通 信 模 块 只 使 用 前 三 项 ， 即 消息 类 型 、requestId 和 
被 调用 对 象 的 远程 引用 。methodId 和 所 有 的 编码 与 解码 都 与 下 面 讨 论 的 RMI 软 件 有 关 。 两 个 通信 模 
块 一 起 负责 提供 一 个 指定 的 调用 语义 ， 如 至 多 一 次 。 

服务 器 端 通信 模块 为 被 调用 的 对 象 类 选择 分 发 器 ， 传 输 其 本 地 引用 ， 该 本 地 引用 取 自 远程 引 
用 模块 ， 用 来 替换 请 求 消息 中 的 远程 对 象 标识 符 。 分 发 器 的 作用 将 在 下 面 的 RMI 软 件 中 讨论 。 

远程 引用 模块 ”远程 引用 模块 负责 在 本 地 对 象 引 用 和 远程 对 象 引 用 之 间 进 行 翻译 ， 并 负责 创建 
远程 对 象 引 用 。 为 履行 其 职责 ， 每 个 进程 中 的 远程 引用 模块 都 有 一 个 远程 对 象 表 ， 该 表 记 录 着 该 
进程 的 本 地 对 象 引 用 和 远程 对 象 引 用 (整个 系统 范围 内 ) 的 对 应 关系 。 这 张 表 包 括 : 

。 该 进程 拥有 的 所 有 远程 对 象 。 例 如 ， 在 图 5-7 中 ， 远 程 对 象 B 会 记录 在 服务 器 端的 表 中 。 

。 每 个 本 地 代理 。 例 如 ， 在 图 5-7 中 ，B 的 代理 会 记录 在 客户 端的 表 中 。 

代理 的 作用 将 在 下 面 的 RMI 软 件 中 讨论 。 远 程 引用 模块 的 动作 如 下 : 

。 当 远程 对 象 第 一 次 作为 参数 或 者 结果 传递 时 ， 远 程 引 用 模块 创建 一 个 远程 对 象 引 用 ， 并 把 

它 添加 到 表 中 。 

。 当 远程 对 象 引 用 随 请 求 或 应 答 消息 到 达 时 ， 远 程 引用 模块 要 提供 对 应 的 本 地 对 象 引 用 ， 它 

可 能 指向 一 个 代理 ， 也 可 能 指向 一 个 远程 对 象 。 若 远程 对 象 引 用 不 在 表 中 ， 那 么 RMI 软 件 就 

创建 一 个 新 的 代理 并 要 求 远程 引用 模块 把 它 添 加 到 表 中 。 

在 为 远程 对 象 引 用 进行 编码 和 解码 的 时 候 ， 由 RMI 软 件 的 组 件 调用 这 个 模块 。 例 如 ， 当 请 求 
消息 到 达 的 时 候 ， 可 使 用 这 张 表 找 出 调用 了 哪个 本 地 对 象 。 

伺服 器 伺服 器 是 一 个 提供 了 远程 对 象 主体 的 类 的 实例 。 由 相应 的 骨 台 传递 的 远程 请 求 最 终 是 
由 伺服 器 来 处 理 的 。 伺 服 器 存活 于 服务 器 端的 进程 中 。 当 远程 对 象 被 实例 化 时 ， 就 会 生成 一 个 伺 
服 器 ， 而 且 这 些 伺服 器 可 以 一 直 使 用 到 不 再 需要 远程 对 象 为 止 。 最 终 ， 伺 服 器 也 将 作为 无 用 单元 
被 回收 或 删除 。 

RMI 软 件 ” 它 由 位 于 应 用 层 对 象 和 通信 模块 、 远 程 引 用 模块 之 间 的 软件 层 组 成 。 在 图 5-7 中 ， 
中 间 件 对 象 的 角色 有 如 下 几 种 角色 : 
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代理 : 代理 的 作用 是 通过 对 调用 者 表现 得 像 本 地 对 象 一 样 ， 使 远程 方法 调用 对 客户 透明 。 它 
不 执行 调用 ， 而 是 将 调用 放 在 消息 里 传递 给 远程 对 象 。 它 隐藏 了 远程 对 象 引 用 的 细节 、 参 数 的 编 
码 、 结 果 的 解码 以 及 客户 消息 的 发 送 和 接收 。 对 十 具有 远程 对 象 引用 的 进程 ， 其 中 每 个 远程 对 象 
都 有 一 个 代理 。 代 理 类 实现 它 所 代表 的 远程 对 象 的 远程 接口 定义 的 方法 ， 这 可 以 保证 远程 方法 调 
用 与 远程 对 象 的 类 型 相 匹 配 。 然 而 ， 代 理 实现 它们 的 方式 则 有 很 大 区 别 。 代 理 中 的 每 个 方法 会 把 
一 个 目标 对 象 的 引用 、 它 自身 的 methodId 和 它 的 参数 编码 进 一 个 请 求 消息 并 发 送 到 目标 ， 然 后 等 
待 应 答 消息 ， 解 码 并 将 结果 返回 给 调用 者 。 

分 发 器 : 服务 器 对 表示 远程 对 象 的 每 个 类 都 有 一 个 分 发 器 和 骨架 。 在 我 们 的 例子 中 ， 服 务 器 有 
远程 对 象 B 的 类 的 分 发 器 和 骨架 。 分 发 器 接收 来 自 通信 模块 的 请 求 消息 ， 并 传递 请 求 消息 ， 并 使 用 
methodid 选 择 骨 架 中 恰当 的 方法 。 分 发 器 和 代理 对 远程 接口 中 的 方法 使 用 相同 的 methodId。 

骨架 : 远程 对 象 类 有 一 个 骨架 ， 用 于 实现 远程 接口 中 的 方法 。 这 些 方 法 与 作为 远程 对 象 的 主 
体 的 伺服 器 中 的 方法 极为 不 同 。 一 个 骨架 方法 将 请 求 消息 中 的 参数 解码 ， 并 调用 伺服 器 中 的 相应 
方法 。 它 等 待 调用 完成 ， 然 后 将 结果 和 异常 信息 编码 进 应 答 消息 ， 传 送 给 发 送 方 代理 的 方法 。 

远程 对 象 引用 以 图 4-13 中 的 形式 编码 ， 其 中 包括 远程 对 象 的 远程 接口 的 信息 ， 例 如 远程 接口 
的 名 字 或 者 远程 对 象 类 。 这 条 信息 能 确定 代理 类 ， 以 便 在 需要 的 时 候 可 以 创建 一 个 新 的 代理 。 例 
如 ， 可 以 通过 把 “_proxy” 添 加 到 远程 接口 名 中 来 创建 代理 类 名 。 

创建 代理 类 、 分 发 器 类 和 骨架 类 ”在 RMI 使 用 的 代理 类 、 分 发 器 类 和 骨架 类 由 接口 编译 器 自动 
创建 。 例 如 ， 在 CORBA 的 Orbix 实 现 中 ， 远 程 对 象 的 接口 以 CORBA IDL 定 义 ， 而 接口 编译 器 能 用 
C++ 或 Java 语 言 创建 代理 类 、 分 发 器 类 和 骨架 类 [www.iona.com]。 对 于 Java RMI， 由 远程 对 象 提供 
的 方法 集合 被 定义 为 一 个 java 接口 ， 它 是 在 远程 对 象 类 中 实现 的 。Java RMI 编 译 器 根据 远程 对 象 类 
创建 代理 类 、 分 发 器 类 和 骨架 类 。 

动态 调用 : 可 替换 代理 的 选择 ”上面 提 到 的 代理 是 静态 的 ， 即 代理 类 是 通过 接口 定义 生成 的 ， 
并 且 被 编译 到 客户 端的 代码 中 。 但 在 有 些 情况 下 ， 这 是 不 实际 的 。 例 如 ， 如 果 一 个 远程 引用 指向 
了 客户 端 程序 中 的 对 象 ， 而 这 个 对 象 的 远程 接口 在 编译 时 是 不 能 确定 的 。 在 这 种 情况 下 ， 需 要 采 
用 其 他 的 方法 调用 该 远程 对 象 ， 这 就 称 动 态 调用 。 客 户 应 用 程序 可 以 通过 动态 调用 获得 远程 调用 
的 一 般 性 表示 ， 例 如 练习 5.8 中 的 DoOperation 方 法 ， 这 个 方法 是 RMI 的 基础 体系 结构 的 一 部 分 ( 参 
见 第 4.4 节 )。 客 户 端 会 提供 远程 对 象 引 用 、 方 法 各 和 DoOperation 方 法 的 参数 ， 然 后 等 待 接收 结果 。 

需要 注意 的 是 ， 尽 管 远程 对 象 引用 包含 远程 对 象 接口 的 信息 ， 例 如 远程 对 象 接 口 的 名 字 。 但 
是 这 些 信 息 是 不 够 的 ， 因 为 动态 调用 还 需要 知道 远程 对 象 接 口 的 方法 名 和 参数 的 类 型 。 在 20.2.2 节 ， 
我 们 将 会 看 到 ，CORBA 使 用 一 个 称 为 Interface Repository 的 组 件 来 提供 所 需 的 信息 。 

将 动态 调用 接口 作为 代理 并 不 方便 ， 但 如 果 应 用 程序 中 的 某 些 远程 对 象 的 接口 不 能 在 设计 时 
确定 ， 那 么 动态 调用 接口 就 会 非常 有 用 。 例 如 ， 这 种 应 用 的 一 个 例子 是 我 们 在 描述 Java RMI ( 参 
见 第 5.5 节 )、CORBA (参见 第 20.2 节 ) 和 Web 服 务 (参见 第 19.2.3 节 ) 时 给 出 的 共享 白板 。 共 享 白 
板 这 个 应 用 程序 能 够 显示 各 种 图 形 ， 例 如 圆 、 和 矩形 和 直线 ， 但 是 它 也 应 当 能 够 显示 那些 客户 端 纺 
译 时 没有 预先 定义 的 图 形 。 客 户 端 可 以 通过 动态 调用 解决 这 个 难题 。 在 第 5.5 节 中 ， 我 们 还 可 以 看 
到 ， 在 Java RMI 中 客户 端 可 以 通过 动态 的 下 载 类 的 方法 来 代 赫 动态 调用 。 

动态 骨架 : 从 上 面 的 例子 中 ， 我 们 可 以 清楚 地 看 到 ， 服 务 器 有 时 需要 驻 留 那些 接口 在 编译 时 
尚 不 能 确定 的 远程 对 象 。 例 如 ， 运 行 共享 白板 程序 的 服务 器 需要 保存 客户 提供 的 新 的 图 形 。 使 用 
动态 骨架 的 服务 器 便 能 够 解决 这 种 问题 。 我 们 将 在 第 20.2.2 节 中 描述 动态 骨架 。 在 第 5.2 节 我 们 会 看 
到 ， 利 用 一 个 普通 的 分 发 器 将 类 动态 地 下 载 到 服务 器 ，Java RMI 便 可 以 解决 这 个 问题 。 

服务 器 和 客户 程序 服务 器 程序 包含 分 发 器 类 和 骨架 类 ， 以 及 它 支 持 的 所 有 伺服 类 的 实现 。 另 
外 ， 服 务 器 程序 包含 初始 化 部 分 〈 例 如 ， 在 Java 或 C++ 中 的 main 方 法 里 ) 。 初 始 化 部 分 负责 创建 并 
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初始 化 至 少 一 个 驻 留 在 服务 器 上 的 伺服 器 ， 其 余 的 伺服 器 可 以 应 客户 发 出 的 请 求 而 创建 。 初 始 化 
部 分 也 可 以 用 一 个 绑 定 程序 (参见 后 文 ) 注册 它 的 一 些 伺 服 器 。 通 常情 况 下 ， 它 只 注册 一 个 伺服 
器 ， 该 伺服 器 可 以 用 来 访问 其 他 对 象 。 

客户 程序 会 包含 它 将 调用 的 所 有 远程 对 象 的 代理 类 ， 它 用 一 个 绑 定 程序 查找 远程 对 象 引用 。 

工厂 方法 : 我 们 早 就 注意 到 远程 对 象 接口 不 能 包括 构造 子 。 这 意味 着 远程 对 象 不 能 通过 对 构 
造 函 数 的 远程 调用 来 创建 。 伺 服 器 可 以 在 初始 化 部 分 创建 ， 也 可 以 在 为 该 用 途 而 设计 的 远程 接口 
中 创建 。 术 语 工厂 方法 有 时 指 创建 伺服 器 的 方法 ， 工 厂 对 象 指 具有 工厂 方法 的 对 象 。 任 何 远 程 对 
象 ， 它 要 想 能 应 客户 的 需求 而 创建 新 的 远程 对 象 ， 就 必须 在 它 的 远程 接口 中 提供 用 于 此 用 途 的 方 
法 。 这 样 的 方法 称 为 工厂 方法 ， 尽 管 实际 上 它们 也 是 普通 的 方法 。 

绑 定 程序 客户 程序 通常 要 有 一 种 手段 ,以 便 获得 服务 器 端 至 少 一 个 远程 对 象 的 远程 对 象 引 用 。 
例如 ， 在 图 5-3 中 ， 对 象 A 要 求 对 象 B 的 一 个 远程 对 象 引用 。 分 布 式 系统 中 的 绑 定 程序 就 是 一 个 单独 
的 服务 ， 它 维护 着 一 张 表 ， 表 中 包含 从 文本 名 字 到 远程 对 象 引用 的 映射 。 服 务 器 用 该 表 来 按 名 字 
注册 远程 对 象 ， 客 户 用 它 来 查找 这 些 远程 对 象 。 第 20 章 将 讨论 CORBA 命 名 服务 。Java 绑 定 程序 ， 
即 RMIregistry， 将 在 第 5.5 节 的 Java RMI 实 例 研究 中 简要 讨论 。 

服务 器 线程 一 旦 对 象 执行 远程 调用 ， 该 调用 可 能 会 涉及 调用 其 他 远程 对 象 的 方法 ， 因 此 可 能 
需要 过 一 段 时 间 才 会 返回 。 为 了 避免 一 个 远程 调用 的 执行 延误 另 一 个 调用 的 执行 ， 服 务 器 一 般 为 
每 个 远程 调用 的 执行 分 配 一 个 独立 的 线程 。 这 有 时， 远程 对 象 实现 的 设计 者 必须 考虑 到 并 发 执行 状 
态 产生 的 影响 。 

远程 对 象 的 激活 ”有 些 应 用 要 求 信息 能 长 时 间 地 保留 ， 然 而 ， 让 表示 这 一 信息 的 对 象 无 限期 地 
保留 在 运行 的 进程 中 是 不 切实 际 的 ， 因 为 并 不 是 在 所 有 的 时 间 都 要 使 用 它们 。 为 了 避免 因为 在 全 
部 时 间 里 运行 管理 这 些 远程 对 象 的 服务 器 造成 潜在 的 资源 浪费 ， 服 务 器 应 该 在 客户 需要 它们 的 任 
何 时 候 启 动 ， 就 像 TCP 服 务 的 标准 集 (如 FTP) 那样 ，Inetd 服 务 会 根据 需要 才 启 动 FTP。 启 动用 于 
驻 留 远程 对 象 的 服务 器 的 进程 被 称 为 激活 器 ， 原 因 如 下 。 

当 一 个 远程 对 象 在 一 个 运行 的 进程 中 可 供 调用 时 ， 就 认为 它 是 主动 的 ， 如果 它 现在 不 是 主动 
的 但 是 可 以 激活 为 主动 的 ， 就 认为 它 是 被 动 的。 一 个 被 动 对 象 包括 两 个 部 分 ， 

1) 它 的 方法 的 实现 。 

2) 它 的 编码 格式 的 状态 。 

激活 是 指 根据 相应 的 被 动 对 象 创建 一 个 主动 对 象 ， 具 体 方法 是 创建 被 动 对 象 类 的 一 个 新 实例 
并 根据 存储 的 状态 初始 化 它 的 实例 变量 。 被 动 对 象 可 以 根据 要 求 被 激活 ， 例 如 当 它们 被 其 他 对 象 
调用 的 时 候 。 

* 注册 可 以 被 激活 的 被 动 对 象 ， 这 涉及 记录 服务 器 名 字 ， 而 不 是 相应 被 动 对 象 的 URL 或 者 文件 名 。 

* 启动 已 命名 的 服务 器 进程 并 激活 进程 中 的 远程 对 象 。 

“ 跟踪 已 经 激活 的 远程 对 象 所 在 的 服务 器 位 置 。 

Java RMI 具 有 将 一 些 远程 对 象 变 为 可 激活 [java.sun.com IX] 的 能 力 。 当 一 个 可 激活 对 象 被 调用 
时 ， 如 果 这 个 对 象 的 当前 状态 不 是 激活 状态 ， 那 么 这 个 对 象 将 从 它 的 编码 状态 转化 为 激活 状态 ， 
然后 执行 调用 。 它 在 每 一 个 服务 器 机 器 中 都 使 用 一 个 激活 器 。 

CORBA 实 例 研 究 中 描述 了 它 的 实现 仓库 一 一 一 种 弱 形式 的 数 活 器 ， 它 在 初始 状态 下 激活 含有 
对 象 的 服务 。 

持久 对 象 存储 那些 在 进程 两 次 激活 之 间 仍然 保证 存活 的 对 象 称 为 持久 对 和 象 。 持 久 对 象 一 般 由 
持久 对 象 存储 来 管理 ， 它 在 磁盘 上 以 编码 格式 存储 持久 对 象 的 状态 ， 如 CORBA 持 久 状 态 服务 ( 见 
第 20.3 节 )、Java Data Objects[java.sun.com VIID 和 了 Persistent Java [ Jordan 1996，java.sun.com IV]。 

一 般 来 说 ， 持 久 对 象 存储 将 管理 海量 的 持久 对 象 ， 这 些 持久 对 象 都 存储 在 磁盘 或 数据 库 中 ， 
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直到 需要 它们 的 时 候 才 被 调用 。 当 这 些 持久 对 象 的 方法 被 其 他 对 象 调用 的 时 候 ， 它 们 就 会 被 激活 。 
激活 一 般 设计 为 透明 的 ， 也 就 是 说 ， 调 用 者 应 该 不 能 判断 一 个 对 象 是 已 经 在 主 存 中 ， 还 是 在 其 方 
法 被 调用 之 前 已 经 被 激活 。 主 存 中 不 再 需要 的 持久 对 象 要 变 成 被 动 的 。 在 大 多 情况 下 ， 为 了 容错 
起 见 ， 对 象 只 要 达到 一 个 一 致 的 状态 ， 就 能 够 保存 在 持久 对 象 存储 中 。 持 久 对 象 存储 需要 一 个 决 
定 何 时 钝 化 对 象 的 策略 。 例 如 ， 它 可 能 会 在 激活 对 象 的 程序 中 为 响应 某 个 请 求 (如 在 事务 结束 或 
者 程序 退出 的 时 候 ) 而 这 样 做 。 持 久 对 象 存 储 一 般 要 对 钝 化 进行 优化 ， 即 只 保存 那些 自 上 次 保存 
以 来 修改 过 的 对 象 。 

持久 对 象 存 储 一 般 允 许 相 关 持久 对 象 集 具 有 可 读 的 名 字 ， 例 如 路 径 名 或 者 URL。 实 际 上 ， 每 
个 可 读 的 名 字 都 与 相关 的 持久 对 象 集 的 根 有 关 。 

有 两 种 方法 可 以 判断 一 个 对 象 是 否 是 持久 的 

。 持 久 对 象 存储 维护 一 些 持久 根 ， 任 何 可 以 通过 持久 根 访 问 到 的 对 象 都 被 定义 为 持久 的 。 这 

种 方法 被 Persistent Java、Java Data Objects 和 PerDisfFerreira et al. 2000] 采 用 。 它 们 使 用 无 用 
单元 收集 器 剔除 从 持久 根 不 再 可 达 的 对 象 。 

。 持 久 对 象 存储 提供 一 些 持久 类 一 一 持久 对 象 属于 它们 的 子 类 。 例 如 在 Arjuna [Parrington et al. 

1995] 中 ， 持 久 对 象 基 于 提供 事务 和 恢复 的 C+t+ 类 。 不 想 要 的 对 象 必 须 被 显 式 地 删除 。 

有 些 持 久 对 象 存储 ， 例 如 PerDis 和 Khazana [Carter et al. 1998] 允 许 对 象 在 用 户 的 多 个 本 地 缓存 
中 激活 ， 而 不 是 在 服务 器 中 激活 。 在 这 种 情况 下 ， 就 要 求 有 缓存 一 致 性 协议 。 第 18 章 将 讨论 多 种 
一 致 性 模型 。 

对 象 定位 ”4.3.4 节 描述 了 一 种 远程 对 象 引 用 ， 它 包含 创建 远程 对 象 的 进程 的 因特网 地 址 和 端 
口号 ， 用 以 作为 保证 唯一 性 的 一 种 方式 。 这 种 形式 的 远程 对 象 引 用 也 能 用 作 远 程 对 象 的 地 址 ， 只 
要 该 对 象 在 余下 的 生命 周期 中 存在 于 相同 的 进程 里 。 但 是 ， 有 些 远 程 对 象 在 其 整个 生命 周期 里 会 
存在 于 一 系列 不 同 的 进程 中 ， 可 能 这 些 进 程 存在 于 不 同 的 计算 机 中 。 在 这 种 情况 下 ， 远 程 对 象 引 
用 不 能 当 作 地 址 用 。 发 出 调用 的 客户 同时 需要 一 个 远程 对 象 引 用 和 一 个 调用 发 送 到 的 地 址 。 

定位 服务 帮助 客户 根据 远程 对 象 引 用 定位 远程 对 象 。 它 使 用 了 一 个 数据 库 ， 该 数据 库 用 于 将 
远程 对 象 引 用 映射 到 它们 当前 的 大 概 位 置 一 一 位 置 是 大 概 的 ， 因 为 对 象 可 能 已 经 从 已 知 的 前 一 次 位 
置 迁移 了 。 例 如 Clouds 系 统 [Dasgupta et al. 1991] 和 Emerald 系 统 [Jul et al. 1988] 使 用 缓存 /广播 方 
案 ， 其 中 每 个 计算 机 上 的 定位 服务 的 一 个 成 员 拥 有 一 个 小 缓存 ， 存 放 远 程 对 象 引 用 一 位 置 的 映射 。 
如 果 远 程 对 象 引 用 位 于 缓存 中 ， 就 尝试 用 那个 地 址 调用 ,但 是 如 果 对 象 已 经 移动 了 ， 调 用 就 会 失 
败 。 为 了 定位 一 个 已 经 移动 的 对 象 或 者 位 置 不 在 缓存 中 的 对 象 ， 系 统 要 广播 一 条 请 求 。 要 改善 该 
方案 ， 可 以 使 用 转发 定位 指针 ， 转 发 定位 指针 含有 关于 对 象 的 新 位 置 的 提示 。 在 第 9.1 节 中 ， 我 们 
将 给 出 另 一 个 例子 ， 即 将 一 个 资源 的 URN 转 换 为 它 当 前 的 URL 的 解析 服务 。 


5.2.6 分 布 式 无 用 单元 收集 


分 布 式 无 用 单元 收集 器 的 目的 是 提供 以 下 保证 ， 如果 一 个 本 地 对 象 引用 或 者 远程 对 象 引用 还 
在 分 布 式 对 象 集合 中 的 任何 地 方 ， 那 么 该 对 象 本 身 将 继续 存在 ， 但 是 一 旦 没有 任何 对 象 引 用 它 时 ， 
该 对 象 将 被 收集 ， 并 且 它 使 用 的 内 存 将 被 回收 。 

我 们 将 描述 Java 的 分 布 式 无 用 单元 收集 算法 ， 它 与 Birrel 等 [1995] 描 述 过 的 算法 很 相似 。 它 基 
于 引用 计数 。 一 旦 一 个 远程 对 象 引 用 进入 一 个 进程 ， 进 程 就 会 创建 一 个 代理 ， 只 要 需要 这 个 代理 ， 
它 就 一 直 存 在 。 对 象 生存 的 进程 ( 它 的 服务 器 ) 应 该 告知 给 客户 上 的 新 代理 。 随 后 当 客 户 不 再 有 
代理 时 ， 也 应 告知 服务 器 。 分 布 式 无 用 单元 收集 器 与 本 地 无 用 单元 收集 器 按 如 下 的 方式 协作 ， 

， 每 个 服务 器 进程 为 它 的 每 个 远程 对 象 维护 拥有 远程 对 象 引用 的 一 组 进程 名 ， 例 如 ，B.holders 

是 具有 对 象 B 的 代理 的 客户 进程 (虚拟 机 ) 的 集合 。( 在 图 5-7 中 ， 这 个 集合 包括 图 示 的 客户 

进程 。) 这 个 集合 可 以 放 在 远程 对 象 表 的 一 个 附加 列 里 。 
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。 当 客户 C 第 一 次 接收 到 远程 对 象 B 的 远程 引用 时 ， 它 发 出 一 个 addRef (B) 调用 到 远程 对 象 的 

服务 器 并 创建 一 个 代理 ， 服 务 器 将 C 添 加 到 B.holders。 

。 当 客户 C 的 无 用 单元 收集 器 注意 到 远程 对 象 B 的 一 个 代理 不 再 可 达 时 ， 它 发 出 一 个 removeRef 

(B) 调用 到 相应 的 服务 器 ， 然 后 删除 该 代理 ， 服 务 器 从 B.holders 中 删除 C。 
。 如果 不 存在 B 的 一 些 本 地 持 有 者 ， 当 B.holders 为 空 时 ， 服 务 器 的 本 地 无 用 单元 收集 器 将 回收 
被 B 占 有 的 空间 。 

通过 在 进程 中 远程 引用 模块 之 间 采 用 至 多 一 次 调用 语义 的 请 求 一 应 答 通 信 可 实现 该 算法 一 一 它 
不 要 求 任何 全 局 同步 。 但 要 注意 ， 为 无 用 单元 收集 算法 所 发 送 的 额外 调用 不 能 影响 到 每 个 正常 的 
RMI， 它 们 只 在 代理 创建 和 删除 的 时 候 发 生 。 

有 一 种 可 能 ， 在 一 个 客户 发 出 一 个 removeRef (B) 调用 的 同时 ， 另 一 个 客户 恰好 发 出 addRef 
(B) 调用 。 若 removeRef 调 用 先 到 达 而 此 时 B.holders 为 空 ， 那 么 远程 对 象 B 可 能 会 在 addRef 调 用 到 
来 之 前 被 删除 。 为 避免 这 种 情况 ， 当 传递 远程 对 象 引用 的 时 候 ， 如 果 B.holders 集 合 是 空 的 ， 就 添 
加 一 个 临时 的 入 口 直 至 addRef 调 用 到 达 为 止 。 

Java 分 布 式 无 用 单元 收集 算法 通过 使 用 下 面 的 方法 可 以 容忍 通信 故障 。addRef 和 removeRef 操 
作 是 笑 等 的 。 当 addRef (B) 调用 返回 一 个 异常 (意味 着 该 方法 要 么 执行 过 一 次 ， 要 么 根本 没有 执 
行 ) 时 ， 客 户 不 创建 代理 而 是 发 出 一 个 removeRef (B) 调用 。removeRef 的 效果 是 否 正确 取决 于 
addRef 是 否 成 功 。removeRef 失 败 的 情况 通过 租借 来 处 理 ， 如 下 文 所 述 。 

Java 分 布 式 无 用 单元 收集 算法 可 以 容忍 客户 进程 的 故障 。 为 做 到 这 点 ， 服 务 器 将 它们 的 对 象 租 
借 给 客户 一 段 有 限 的 时 间 。 借 期 从 客户 给 服务 器 发 出 addRef 调 用 开始 ， 到 达 过 期 时 间 后 终止 或 者 
客户 给 服务 器 发 出 一 个 removeRef 调 用 后 终止 。 存 储 在 服务 器 端的 关于 每 个 租借 的 信息 包括 客户 虚 
拟 机 的 标识 符 和 租 期 。 客 户 负责 在 租 期 过 期 之 前 向 服务 器 请 求 续 借 。 

Jini 中 的 租借 Jini 分 布 式 系统 包括 一 个 租借 规约 [Arnold et al. 1999]， 它 可 以 用 于 一 个 对 象 给 
另 一 对 象 提 供 一 种 资源 的 各 种 情形 ， 例 如 远程 对 象 提 供 引用 给 其 他 对 象 。 提 供 这 种 资源 的 对 象 要 
冒 一 些 风险 ， 即 在 用 户 不 再 对 之 感 兴趣 或 者 它们 的 程序 可 能 已 经 退出 的 情况 下 ， 对 象 将 不 得 不 维 
护 该 资源 。 为 了 避免 用 复杂 的 协议 判断 资源 用 户 是 否 还 有 兴趣 ， 资 源 只 提供 一 段 有 限 长 的 时 间 。 
允许 在 一 段 时 间 内 使 用 资源 的 授权 称 为 租借 。 提 供 资 源 的 对 象 会 负责 维护 它 直到 租 期 结束 。 资 源 
的 用 户 负责 在 过 期 的 时 候 请 求 延续 它们 的 租约 。 

授权 者 与 租借 者 可 以 就 租 期 进行 磋商 ， 当 然 这 不 会 发 生 在 Java RMI 所 使 用 的 租借 中 。 表 示 租 
借 的 对 象 实现 Lease 接 口 ， 该 接口 包含 关于 租 期 的 信息 和 能 令 租 借 延 续 或 取消 的 方法 。 授 权 者 在 提 
供 一 种 资源 给 另 一 对 象 的 时 候 返 回 一 个 Lease 的 实例 。 


5.3 远程 过 程 调 用 


远程 过 程 调用 与 远程 方法 调用 类 似 ， 都 是 客户 程序 调用 另 一 个 运行 在 服务 器 进程 的 程序 中 的 
过 程 。 服 务 器 可 以 是 其 他 服务 器 的 客户 ， 从 而 形成 RPC 链 。 正 如 在 本 章 简介 中 提 到 的 ， 服 务 器 进 
程 在 它 的 服务 接口 中 定义 可 远程 调用 的 过 程 。 实 际 上 ， 这 类 服务 很 像 一 个 有 状态 和 方法 的 远程 对 
象 ， 但 它 缺 少 创建 对 象 的 新 实例 能 力 ， 因 此 也 不 支持 远程 对 象 引用 。 

可 以 实现 RPC (就 像 RMI) 使 之 具有 5.2.4 节 讨论 的 任 一 调用 语义 一 一 通常 会 选择 至 少 一 次 或 者 
至 多 一 次 。RPC 一 般 会 在 请 求 一 应 答 协 议 之 上 实现 ， 就 像 4.4 节 讨论 的 那样 ， 但 该 节 做 了 一 些 简 化 ， 
在 请 求 消息 中 省 略 了 对 象 引 用 。 除 了 ObjectReference 域 被 省 略 之 外 ， 请 求 和 应 答 消息 的 内 容 与 图 
4-16 中 为 RMI 描 述 的 那些 内 容 相 同 。 

支持 RPC 的 软件 如 图 5-8 所 示 ， 它 可 以 是 一 种 不 支持 类 和 对 象 的 过 程式 语言 ， 例 如 C。 这 与 我 
们 的 Sun RPC 实 例 研 究 是 相关 的 ， 这 其 中 便 使 用 了 C 语 言 ， 而 且 由 于 历史 原因 ， 大 多 数 早期 的 RPC 
系统 都 是 基于 C 语 言 的 。 
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图 5-8 使 用 过 程式 语言 的 RPC 中 客户 和 服务 器 存根 过 程 的 角色 


因为 过 程 调用 不 关心 对 象 和 对 象 引 用 ， 所 以 除了 不 需要 远程 引用 模块 之 外 ， 该 软件 与 图 5-7 非 
常 类 似 。 访 问 服务 的 客户 为 服务 接口 中 的 每 个 过 程 包含 一 个 存根 过 程 。 存 根 过 程 的 作用 与 代理 方 
法 的 作用 类 似 ， 它 表现 得 就 像 客 户 端的 本 地 过 程 ， 但 它 并 不 执行 调用 ， 而 是 将 过 程 标识 符 和 参数 
编码 进 请 求 消息 ， 通 过 它 的 通信 模块 将 消息 发 送 给 服务 器 。 当 收 到 应 答 消 息 的 时 候 ， 它 解码 该 结 
果 。 服 务 器 进程 包含 一 个 分 发 器 和 一 个 服务 器 存根 过 程 ， 以 及 与 服务 接口 中 每 个 过 程 相 对 应 的 一 
个 服务 过 程 。 分 发 器 根据 请 求 消息 中 的 过 程 标识 符 选择 一 个 服务 器 存根 过 程 。 服 务 器 存根 过 程 就 
像 一 个 骨架 方法 ， 由 它 来 解码 请 求 消息 中 的 参数 、 调 用 相应 的 服务 过 程 和 编码 应 答 消息 中 的 返回 
值 。 服 务 过 程 实现 服务 接口 中 的 过 程 。 

客户 和 服务 器 存根 过 程 以 及 分 发 器 可 以 由 接口 编译 器 根据 服务 的 接口 定义 生成 。 如 果 客 户 或 
服务 器 使 用 面向 对 象 语 言 ， 如 C++ 或 Java， 那 么 一 个 服务 的 客户 存根 过 程 可 以 实现 为 一 个 代理 ， 一 
组 服务 器 存根 过 程 可 以 实现 为 一 个 骨架 。 


实例 研究 ; Sun RPC 


RFC 1831 [Srinivasan 1995a] 中 描述 了 Sun RPC， 它 是 为 Sun NFS 网 络 文件 系统 中 的 客户 一 服务 
器 通信 而 设计 的 。Sun RPC 有 时 也 称 为 ONC (开放 网 络 计算 ) RPC。 它 作为 各 种 Sun 和 其 他 UNIX 操 
作 系 统 的 一 部 分 提供 ， 并 且 也 可 以 安装 在 NFS 中 。 远 程 过 程 调 用 可 以 基于 UDP 协议 实现 ， 也 可 以 基 
于 TCP 协 议 实现 。 当 Sun RPC 采 用 UDP 时 ， 请 求 消息 和 应 答 消息 的 长 度 被 限制 在 一 定 范围 内 一 一 理论 
上 可 以 到 64KB ， 但 在 实际 中 通常 为 8KB 或 9KB 。 它 使 用 至 少 一 次 调用 语义 ， 广 播 型 RPC 是 可 选 的 。 

Sun RPC 系 统 提供 了 一 种 称 为 XDR 的 接口 语言 和 一 个 可 以 用 于 C 编 程 语言 的 接口 编译 器 rpcgen。 

接口 定义 语言 “Sun XDR 语 言 最 初 用 于 指明 外 部 数据 表达 ， 现 在 扩展 成 为 一 种 接口 定义 语言 。 
通过 指定 一 组 过 程 定义 并 支持 类 型 定义 ，XDR 可 用 于 定义 Sun RPC 的 服务 接口 。 与 CORBA IDI 或 
Java 使 用 的 接口 定义 语言 相 比 ， 它 的 表示 方法 相当 简单 。 特 别 是 体现 在 以 下 几 个 方面 : 

。 大 多 数 语言 允许 指定 接口 名 ， 但 Sun RPC 不 是 这 样 一 它 提供 一 个 程序 号 和 一 个 版 本 号 。 程 “57 
序号 可 以 从 授权 中 心 获得 ， 以 保证 每 个 程序 都 有 其 唯一 的 编号 。 当 一 个 过 程 签名 改变 时 , 版 【198 
本 号 也 跟着 改变 。 程 序号 和 版 本 号 都 在 请 求 消息 里 传递 ， 以 便 客户 和 服务 器 能 验证 它们 是 否 
正在 使 用 相同 的 版 本 。 

一 个 过 程 定义 指定 一 个 过 程 签 名 和 一 个 过 程 号 。 过 程 号 用 作 请 求 消 息 中 的 过 程 标 识 符 。( 它 
可 能 会 为 接口 编译 器 生成 过 程 标识 符 。) 

只 人 允许 使 用 单个 输入 参数 。 因 此 ， 需 要 多 个 参数 的 过 程 必须 把 参数 作为 一 个 结构 的 组 成 部 分 。 
。 过 程 的 输出 参数 以 单个 结果 返回 。 

。 过程 签名 由 结果 类 型 、 过 程 名 和 输入 参数 的 类 型 组 成 。 返 回 结果 和 输入 参数 的 类 型 可 以 指 
定 为 单个 的 值 ， 也 可 以 指定 为 包含 几 个 值 的 一 个 结构 。 

例如 ， 见 图 5-9 中 的 XDR 定 义 ， 它 定义 了 用 于 读 文件 和 写 文件 的 两 个 过 程 的 接口 。 它 的 程序 号 
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是 9999， 版 本 号 是 2。READ 过 程 〈 第 2 行 ) 将 一 个 带 有 三 个 域 的 结构 (包括 文件 标识 符 、 文 件 中 的 
位 置 和 要 求 的 字 节 数 ) 作为 输入 参数 ， 其 结果 也 是 一 个 结构 ， 其 中 包括 返回 的 字 节 数 和 文件 数据 。 
WRITE 过 程 〈 第 1 行 ) 没有 返回 结果 。WRITE 和 READ 过 程 分 别 被 赋予 编号 1 和 2。 号 码 0 保留 给 空 
过 程 ， 空 过 程 是 自动 生成 的 ， 用 于 测试 一 个 服务 器 是 否 可 用 。 


const MAX = 1000 : 
typedef int Fileldentifier ; 
typedef int FilePointer ; 
typedef int Lengith ; 
struct Data { 


int length : 
Char buffer [ MAX J ; 


}: 

Struct writeargs { 
Fileldentifier f; 
FilePointer position ; 
Data data : 

了 

Struct readargs { 
Fileldentifier f : 
FilePointer position ; 
Lengih length ; 

了 


program FILEREADWRITE { 
version VERSION { 
void WRITE (writeargs ) =1; 
Data READ (readargs ) = 2 
1}=2; 
2= 9999 ; 








图 5-9 Sun XDR 中 的 文件 接口 


接口 定义 语言 提供 了 用 于 定义 常量 、 类 型 预定 义 (typedef) 、 结 构 、 枚 举 类 型 、 联 合 和 程序 的 
表示 法 。 类 型 预定 义 、 结 构 、 枚 举 类 型 使 用 C 语 言 的 语法 。 可 以 使 用 接口 编译 器 rpcgen 根 据 接口 定 
义 生 成 以 下 部 分 : 

。 客 户 存 根 过 程 。 

。 服 务 器 main 过 程 、 分 发 器 和 服务 器 存根 过 程 。 

* 用 于 分 发 器 、 客 户 与 服务 器 存根 过 程 的 XDR 编 码 和 解码 过 程 。 

绑 定 ”Sun RPC 在 每 台 计 算 机 上 的 一 个 熟知 的 端口 号 上 运行 一 个 称 为 端口 映射 器 的 本 地 绑 定 服 
务 。 端 口 映射 器 的 每 个 实例 记录 正在 本 地 运行 的 每 个 服务 所 使 用 的 程序 号 、 版 本 号 和 端口 号 。 当 
服务 器 启动 时 ， 它 在 本 地 端口 映射 器 中 注册 它 的 程序 号 、 版 本 号 和 端口 号 。 当 客户 启动 时 ， 它 通 
过 发 送 指定 程序 号 和 版 本 号 的 远程 请 求 给 服务 器 主机 上 的 端口 映射 器 ， 从 而 找到 服务 器 的 端口 。 

当 一 个 服务 有 多 个 实例 运行 在 不 同 计算 机 上 的 时 候 ， 每 个 实例 可 以 使 用 不 同 的 端口 号 接收 客 
户 的 请 求 。 如 果 一 个 客户 需要 组 播 一 个 请 求 给 所 有 使 用 不 同 端口 号 的 服务 实例 ， 那 么 它 不 能 使 用 
直接 广播 消息 来 达到 目的 。 解 决 办 法 是 客户 发 出 组 播 远程 过 程 调用 将 指定 程序 和 版 本 号 的 请 求 广 
播 到 所 有 的 端口 映射 器 。 每 个 端口 映射 器 判断 如 果 有 一 个 合适 的 本 地 服务 程序 的 话 ， 就 给 它 转发 
所 有 这 样 的 调用 。 
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认证 ”Sun RPC 请 求 和 应 答 消 息 提供 了 一 些 附加 域 ， 以 便 在 客户 和 服务 器 之 间 传 输 认证 信息 。 
请 求 消息 中 包含 正在 运行 客户 程序 的 用 户 的 证 书 。 例 如 ， 按 UNIX 的 认证 风格 ， 证 书包 括 用 户 的 uid 
和 gid。 访 问 控制 机 制 构建 在 认证 信息 之 上 ， 读 认证 信息 可 以 通过 第 二 个 参数 用 于 服务 器 过 程 。 服 
务 器 程序 负责 实施 访问 控制 ， 根 据 认 证 信息 决定 是 否 执行 每 个 过 程 调 用 。 例 如 ， 如 果 服 务 器 是 一 
个 NFS 文 件 服务 器 ,那么 它 要 验证 用 户 是 否 有 足够 的 权限 来 执行 所 请 求 的 文件 操作 。 

Sun RPC 支 持 几 种 不 同 的 认证 协议 ， 它 们 包括 : 

。 没有 认证 。 

。 上 文 描述 的 UNIX 风 格 。 

。 为 标记 RPC 消 息 创建 共享 密 钥 的 风格 。 

。 Kerberos 认 证 风格 ( 见 第 7 章 )。 

RPC 头 部 的 一 个 域 指 明 它 使 用 的 风格 。 

关于 安全 的 一 种 更 通用 的 方法 可 参见 RFC 2203 中 的 描述 [Eisler et al. 1997]。 它 对 RPC 消 息 和 
消息 认证 的 安全 性 和 完整 性 提供 保障 。 它 允许 客户 和 服务 器 就 安全 上 下 文 进行 协商 ， 在 该 上 下 文 
中 或 者 不 应 用 任何 安全 机 制 或 者 要 求 有 安全 性 保障 ， 可 能 会 提供 消息 完整 性 、 消 息 私密 性 保障 ， 
或 者 两 者 兼 而 有 之 。 

客户 和 服务 器 程序 关于 Sun RPC 的 详细 介绍 可 以 在 www.cdk4.net/rmi 中 找到 。 它 包括 与 图 5-9 
中 定义 的 接口 所 对 应 的 客户 和 服务 器 程序 例子 。 


5.4 事件 和 通知 


事件 所 基于 的 思想 是 ， 一 个 对 象 能 对 发 生 在 另 一 对 象 上 的 改变 做 出 反应 。 事 件 通 知 在 本 质 上 
是 异步 的 ， 并 取决 于 它们 的 接收 者 。 特 别 是 在 交互 式 应 用 中 ， 用 户 在 对 象 上 执行 的 动作 ， 例 如 通 
过 鼠标 操作 一 个 按钮 或 者 用 键盘 在 文本 框 中 输入 文本 ， 可 以 看 作 是 事件 ， 事 件 改变 了 维护 应 用 状 
态 的 对 象 。 只 要 状态 改变 ， 就 要 通知 负责 显示 当前 状态 视图 的 对 象 。 

基于 事件 的 分 布 式 系统 扩展 了 本 地 事件 模型 ， 它 允许 将 某 个 对 象 上 发 生 的 事件 通知 给 几 个 不 同 
位 置 的 对 象 。 它 们 使 用 发 布 一 订阅 模式 ,生成 事件 的 对 象 发 布 事 件 的 类 型 ， 使 其 他 对 象 可 以 发 现 它 。 
对 象 如 果 想 从 一 个 已 经 发 布 了 它 的 事件 的 对 象 处 接收 通知 ， 就 要 订阅 它们 感 兴趣 的 事件 类 型 。 不 同 
的 事件 类 型 指 的 是 由 感 兴趣 的 对 象 执行 的 不 同方 法 。 表 示 事 件 的 对 象 称 为 通知 。 通 知 可 以 被 存储 ， 
也 可 以 在 消息 中 发 送 ， 可 以 查询 和 应 用 在 各 种 不 同 的 事物 中 。 当 一 个 发 布 者 经 历 一 个 事件 时 ， 曾 经 
对 该 类 事件 表示 有 兴趣 的 对 象 就 会 接收 到 通知 。 订 阅 某 一 类 型 的 事件 也 称 为 对 那 类 事件 注册 兴趣 。 

事件 和 通知 能 广泛 地 用 于 各 种 不 同 的 应 用 中 ， 例 如 传送 一 个 图 形 并 把 它 添 加 到 绘图 程序 中 、 
变更 文档 、 某 个 事实 〈 比 如 某 个 人 已 经 进入 或 离开 了 一 个 房间 ， 一 件 设备 或 者 是 一 本 有 电子 标签 
的 书 放 在 了 一 个 新 的 位 置 上 ) 的 变更 。 主 动 标记 和 嵌入 式 设 备 (参见 16.1 节 ) 的 使 用 使 得 后 面 两 个 
例子 成 为 可 能 。 

基于 事件 的 分 布 式 系统 具有 两 个 主要 特征 ， 

异 构 性 : 当 事 件 通知 用 作 分 布 式 对 象 间 一 种 通信 方式 的 时 候 ， 虽 然 分 布 式 系统 中 的 组 件 原本 
不 能 用 于 互 操作 ,但 现在 也 可 以 让 它们 一 起 工作 。 所 要 做 的 事情 就 是 让 生成 事件 的 对 象 发 布 它们 
所 提供 的 事件 类 型 ， 而 其 他 对 象 订 阅 事件 并 提供 接收 通知 的 接口 。 例 如 ，Bates 等 [1996] 描 述 了 基 
于 事件 的 系统 如 何 用 于 连接 因特网 中 的 异 构 组 件 。 他 们 描述 了 这 样 一 个 系统 ， 其 中 的 应 用 可 以 知 
道 用 户 的 位 置 和 活动 ， 例 如 使 用 计算 机 、 打 印 机 或 者 阅读 具有 电子 标签 的 书 。 他 们 设想 未 来 在 家 
庭 网 络 的 环境 中 ， 能 实现 这 样 的 需求 :“ 如 果 和 孩子 们 回 家 ， 就 自动 打开 中 央 上 暖气”。 

凡 步 性 : 生成 事件 的 对 象 给 所 有 向 其 订阅 过 该 事件 的 对 象 异步 地 传输 通知 ， 从 而 避免 了 发 布 
者 需要 与 订阅 者 同步 的 问题 一 一 发 布 者 和 订阅 者 需要 解 耦 合 。Mushroom [ Kindberg et al. 1996] 是 
一 个 基于 事件 的 分 布 式 系统 ， 用 于 支持 协同 工作 ， 该 系统 中 的 用 户 界面 显示 表示 用 户 的 对 象 和 信 
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息 对 象 ， 如 被 称 为 网 络 空间 的 共享 工作 区 内 的 文档 与 记事 本 。 每 处 空间 的 状态 被 复制 到 当前 该 处 
用 户 的 计算 机 上 ， 事 件 用 于 描述 对 象 和 用 户 兴趣 焦点 的 改变 。 例 如 ， 一 个 事件 可 能 说 明 某 个 用 户 
已 经 进入 或 者 离开 了 一 个 地 方 ， 或 者 已 经 在 一 个 对 象 上 执行 了 某 个 动作 。 与 某 类 事件 相关 的 对 象 
的 每 个 复 本 订阅 这 类 事件 ， 并 在 这 类 事件 发 生 时 接收 通知 。 但 是 订阅 者 与 经 历 事件 的 对 象 是 解 耦 
合 的 ， 因 为 不 同 的 用 户 在 不 同 的 时 间 活 动 。 
我 们 将 在 下 面 的 证 券 交易 所 的 例子 中 阐述 在 某 些 情况 下 事件 的 重要 作用 。 
简单 的 证 券 交易 所 系统 ”考虑 一 个 简单 的 证 券 交 易 所 系统 ， 它 的 任务 是 让 交易 者 使 用 计算 机 查 
看 他 们 当前 正在 交易 的 股票 的 最 新 市 场 价格 。 单 个 上 市 股票 的 市 场 价格 通过 具有 几 个 实例 变量 的 
对 象 来 表示 。 信 息 以 更 新 代表 股票 的 对 象 的 一 部 分 或 者 全 部 实例 变量 的 形式 ， 从 几 个 不 同 的 外 部 
来 源 到 达 交 易 所 ， 然 后 由 称 为 信息 提供 者 的 进程 收集 这 些 信 息 。 交 易 者 一 般 只 对 他 们 持 有 的 几 种 
特定 的 股票 感 兴趣 。 可 采用 两 个 完成 不 同 任务 的 进程 为 证 券 交 易 所 系统 建 模 : 
。 信息 提供 者 进程 不 断 地 从 一 个 外 部 源 接 收 新 的 交易 信息 ， 并 应 用 到 相应 的 股票 对 象 上 。 对 
股票 对 象 的 每 次 更 新 都 是 一 个 事件 。 经 历 这 一 事件 的 股票 对 象 通知 所 有 持 有 该 股票 的 交易 
者 。 每 个 外 部 源 都 将 会 有 一 个 单独 的 信息 提供 者 进程 。 
交易 者 进程 创建 一 个 对 象 ， 用 于 表示 用 户 请 求 显示 的 每 支 上 市 股票 。 这 个 本 地 对 象 订阅 由 
相关 信息 提供 者 提供 的 代表 那个 股票 的 对 象 。 然 后 它 接收 发 给 它 的 所 有 通知 中 的 信息 ， 并 将 
其 显示 给 用 户 。 
通知 的 通信 如 图 5-10 所 示 。 
交易 者 的 计算 机 外 部 源 交易 者 的 计算 机 





图 5-10 证 券 交 易 所 系统 的 结构 


事件 类 型 一 个 事件 源 能 生成 一 个 或 多 个 不 同类 型 的 事件 。 每 个 事件 都 有 指定 该 事件 信息 的 属 
性 ， 例 如 生成 该 事件 的 对 象 的 名 字 或 者 标识 符 、 操 作 、 它 的 参数 和 时 间 (或 者 一 个 序列 号 ) 。 类 型 
和 属性 均 用 于 事件 的 订阅 和 通知 。 当 订阅 一 个 事件 的 时 候 ， 要 指定 事件 的 类 型 ， 有 时 候 还 要 加 上 
关于 属性 值 的 标准 。 只 要 与 属性 匹配 的 事件 发 生 ， 就 会 通知 感 兴趣 的 一 方 。 在 证 券 交易 所 系统 例 
子 中 ， 存 在 一 类 事件 〈 股 票 的 更 新 信息 到 达 ) ， 属 性 可 以 是 股票 的 名 字 、 它 的 现价 、 最 新 的 涨幅 或 
跌幅 。 交 易 者 可 以 指定 他 们 对 与 具有 某 个 名 字 的 股票 相关 的 所 有 事件 都 感 兴趣 。 

在 5.4.1 节 中 ， 我 们 将 介绍 一 种 体系 结构 ， 用 以 描述 在 分 布 式 事件 通知 中 参与 者 的 作用 。 这 种 
体系 结构 解决 了 事件 通知 的 异 构 性 与 异步 性 。 在 5.4.2 节 中 ，Jini 事 件 服务 的 实例 研究 便 采 用 了 这 种 
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结构 。16.3.1 节 将 讨论 在 不 稳定 系统 中 ， 用 于 组 件 间 数据 通信 的 事件 服务 。 在 20.3.2 节 中 ， 我 们 将 
在 CORBA 实 例 研 究 中 给 出 有 关 CORBA 事 件 服务 的 描述 。 


5.4.1 分 布 式 事件 通知 的 参与 者 

图 5-11 显 示 了 一 个 体系 结构 ， 它 说 明了 参与 到 基于 事件 的 分 布 式 系统 中 的 对 象 所 扮演 的 角色 。 
本 段 内 容 摘 自 因 特 网 上 Rosenblum 和 Wolf [1997] 关 于 事件 和 通知 的 论文 。 该 体系 结构 用 于 发 布 者 和 
订阅 者 之 间 的 解 耦合 ， 以 便 发 布 者 可 以 在 独立 于 它们 的 订阅 者 的 情况 下 进行 开发 ， 并 且 尽 可 能 地 
限制 订阅 者 施加 于 发 布 者 的 工作 。 其 主要 部 件 是 事件 服务 ， 它 维护 一 个 已 发 布 事件 与 订阅 者 兴 
的 数据 库 。 一 个 感 兴趣 的 对 象 上 的 事件 在 事件 服务 上 发 布 。 订 阅 者 向 事件 服务 通告 它们 感 兴趣 的 
事件 类 型 。 当 一 个 事件 在 一 个 感 兴趣 的 对 象 上 发 生 的 时 候 ， 就 发 送 一 个 通知 到 该 类 事件 的 订阅 者 。 





图 5-11 分 布 式 事件 通知 的 体系 结构 


参与 对 象 的 角色 如 下 : 

兴趣 对 象 ， 这 是 一 个 经 历 了 由 于 调用 操作 而 导致 的 状态 改变 的 对 象 。 它 的 状态 改变 可 能 令 其 
他 对 象 感 兴趣 。 这 一 描述 考虑 到 了 像 戴 着 主动 标记 的 人 进入 房间 这 样 的 事件 ， 在 这 种 情形 下 ， 房 
间 是 兴趣 对 象 ， 而 操作 是 将 新 来 的 人 的 信息 添加 到 谁 在 房间 的 记录 中 。 兴 趣 对 象 如 果 传 递 通知 的 
话 ， 就 被 认为 是 事件 服务 的 一 部 分 。 

享 件 ， 事件 在 兴趣 对 象 上 发 生 ， 作 为 方法 执行 完成 的 结果 。 

通知 ; 通知 是 一 个 对 象 ， 它 包含 关于 事件 的 信息 。 一 般 来 说 ， 它 包含 事件 类 型 和 属性 ， 而 属 
性 通常 包括 兴趣 对 象 的 标识 、 调 用 的 方法 、 发 生 时 间或 者 一 个 序号 。 

订阅 者 ; 订阅 者 是 一 个 订阅 了 另 一 对 象 上 某 些 类 型 事件 的 对 象 。 它 接收 关于 该 事件 的 通知 。 

观察 者 对象 : 观察 者 的 主要 作用 是 将 兴趣 对 象 和 其 订阅 者 解 耦 合 。 一 个 兴趣 对 象 可 能 会 有 许 
多 具有 不 同 兴趣 的 不 同 订阅 者 。 例 如 ， 订 阅 者 感 兴趣 的 事件 类 型 不 相同 ， 而 类 型 需求 相同 的 订阅 
者 所 感 兴趣 的 属性 值 可 能 不 相同 。 如 果 要 求 兴趣 对 象 必须 执行 所 有 用 于 区 分 订阅 者 需求 的 逻辑 ， 
那么 它 就 可 能 过 于 复杂 。 一 个 或 多 个 观察 者 可 以 介入 到 兴趣 对 象 与 订阅 者 之 间 。 观 察 者 的 角色 ， 
将 在 后 续 段 落 里 详细 讨论 。 

发 布 者 ， 这 是 一 个 声明 自身 将 生成 某 种 类 型 事件 通知 的 对 象 。 发 布 者 可 以 是 一 个 兴趣 对 象 或 
一 个 观察 者 。 

图 5-11 给 出 了 三 种 情形 : 

1) 在 事件 服务 中 有 一 个 兴趣 对 象 ， 但 没有 观察 者 。 兴 趣 对 象 直接 将 通知 发 送 到 订阅 者 。 

2) 在 事件 服务 中 有 一 个 兴趣 对 象 ， 而 且 有 观察 者 。 兴 趣 对 象 通过 观察 者 将 通知 发 送 到 订阅 者 。 

3) 兴趣 对 象 在 事件 服务 之 外 。 在 这 种 情形 下 ， 一 个 观察 者 会 向 兴趣 对 象 查询 事件 何 时 发 生 ， 
观察 者 会 将 通知 发 送 给 订阅 者 。 

传递 语义 ”能 为 通知 提供 多 种 不 同 的 传递 保证 一 -选择 哪 一 个 应 该 取决 于 应 用 需求 。 例 如 ， 如 
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果 IP 组 播 用 于 给 一 组 接收 者 发 送 通 知 ， 那 么 故障 模型 将 与 4.5.1 节 中 用 于 IP 组 播 的 故障 模型 有 关 ， 它 
不 能 保证 所 有 接收 者 会 接收 到 某 个 通知 消息 。 这 对 某 些 应 用 已 经 足够 了 ， 例 如 在 因特网 游戏 中 传 
输 玩家 的 最 新 状态 ， 如 果 最 新 状态 在 下 一 次 更 新 时 到 达 ， 对 玩家 也 不 会 有 太 大 的 影响 。 

然而 ， 其 他 应 用 会 有 更 强 的 需求 。 考 虑 证 券 交 易 所 的 例子 : 为 了 公平 对 待 对 同一 股票 感 兴趣 
所 有 的 交易 者 ， 我 们 要 求 持 有 该 股票 的 所 有 交易 者 都 接收 到 相同 的 信息 。 这 意味 着 应 该 使 用 可 靠 
的 组 播 协议 。 

在 前 面 提 到 的 Mushroom 系 统 中 ， 关 于 对 象 状 态 改变 的 通知 能 可 靠 地 传输 到 服务 器 上 ， 由 服务 
器 负责 维护 对 象 的 最 新 复 本 。 然 而 ， 通 知 也 可 以 以 不 可 靠 的 组 播 方式 发 送 到 用 户 计算 机 的 对 象 复 
本 上 。 如 果 在 后 一 种 情况 下 丢失 了 通知 ， 那 么 用 户 还 能 从 服务 器 上 获得 对 象 状 态 。 当 应 用 需要 的 
时 候 ， 通 知 会 被 排序 然后 再 可 靠 地 传输 到 对 象 复 本 上 。 

某 些 应 用 有 实时 需求 ， 其 中 包括 核电 站 或 医院 病人 监视 系统 中 的 事件 。 可 能 需要 设计 提供 实 
时 保证 和 可 靠 性 且 具 有 排序 功能 的 组 播 协议 ， 其 排序 功能 是 为 了 满足 同步 分 布 式 系统 特性 。 

观察 者 的 角色 尽管 通知 可 以 直接 从 兴趣 对 象 传输 到 接收 者 ， 但 是 处 理 通知 的 任务 还 是 可 能 分 
配 到 扮演 不 同 角色 的 观察 者 进程 中 。 我 们 给 出 一 些 例子 : 

转发 : 转发 观察 者 可 以 代表 一 个 或 多 个 兴趣 对 象 完成 所 有 给 订阅 者 发 送 通知 的 工作 。 一 个 兴 
趣 对 象 需要 做 的 所 有 事情 就 是 给 转发 观察 者 发 送 一 个 通知 ， 由 转发 观察 者 继续 自己 正常 的 工作 。 
为 了 使 用 转发 观察 者 ， 兴 趣 对 象 要 将 关于 其 订阅 者 兴趣 的 信息 传输 给 转发 观察 者 。 

通知 过 滤 : 观察 者 可 以 使 用 过 滤 ， 以 便 根据 对 每 条 通知 内 容 的 预测 减少 接收 到 的 通知 数量 。 
例如 ， 一 个 事件 可 能 与 从 银行 账户 上 取款 有 关 ， 但 是 接收 者 只 对 金额 超过 100 美 元 的 交易 感 兴趣 。 

事件 模式 : 当 对 象 订 阅 一 个 兴趣 对 象 上 的 事件 的 时 候 ， 它 们 可 以 指定 自己 感 兴趣 的 事件 的 模 
式 。 模 式 指明 了 几 个 事件 之 间 的 关系 。 例 如 ， 一 个 订阅 者 可 能 对 “没有 存 过 一 次 款 却 从 银行 账户 
中 取 过 三 次 钱 ” 感 兴趣 。 一 种 类 似 的 需求 是 关联 各 种 兴趣 对 象 上 的 事件 。 例 如 ， 只 有 在 一 定数 量 
的 对 象 生成 了 这 类 事件 的 时 候 才 通知 订阅 者 。 

通知 邮箱 : 在 有 些 情况 下 ， 通知 需要 延迟 到 潜在 的 订阅 者 准备 接收 它们 才能 发 送 。 例 如 ， 与 
订阅 者 失去 联系 ， 或 者 对 象 需要 再 次 激活 的 时 候 。 这 时 ， 观 察 者 可 以 扮演 通知 邮箱 的 角色 ， 由 它 
代表 订阅 者 接收 通知 ， 只 有 等 到 订阅 者 准备 好 接收 通知 的 时 候 才 传 递 它们 (在 单独 的 一 批 中 ) 。 订 
阅 者 应 该 可 以 根据 需要 打开 或 者 关闭 这 种 传输 功能 。 订 阅 者 可 以 在 向 某 兴趣 对 象 注册 的 时 候 设 置 
一 个 通知 邮箱 ， 将 通知 邮箱 指定 为 通知 发 送 的 目的 地 。 


5.4.2 实例 研究 ，Jini 分 布 式 事件 规约 


由 Arnold 等 人 [1999] 描 述 的 Jini 分 布 式 事件 规约 允许 一 个 Java 虚 拟 机 (JVM) 中 的 潜在 订阅 者 
订阅 和 接收 另 一 个 JVM (通常 在 另 一 计算 机 上 ) 中 的 兴趣 对 象 的 事件 通知 。 可 以 将 若干 观察 者 插 
入 兴趣 对 象 与 订阅 者 之 间 。Jini 分 布 式 事件 规约 里 的 主要 对 象 包括 : 

事件 生成 者 ， 事件 生成 者 是 一 个 允许 其 他 对 象 向 它 订阅 事件 并 生成 通知 的 对 象 。 

远程 事件 监听 者 :; 远程 事件 监听 者 是 一 个 能 接收 通知 的 对 象 。 

远程 事件 :远程 事件 是 一 个 按 值 方式 传递 给 远程 事件 监听 者 的 对 象 。 远 程 事件 等 价 于 我 们 所 
说 的 通知 。 

第 三 方 代理 ;第 三 方 代理 可 以 插入 到 兴趣 对 象 和 订阅 者 之 间 。 它 们 等 价 于 前 面 介绍 的 观察 者 。 

对 象 订阅 事件 的 方式 如 下 ; 首先 向 事件 生成 者 通知 事件 的 类 型 ， 然 后 将 远程 事件 监听 者 指定 
为 通知 发 送 的 目标 。 

Java RMI 用 于 从 事件 生成 者 向 订阅 者 发 送 通 知 ， 这 可 能 要 借助 一 个 或 多 个 第 三 方 代理 。 设 计 
者 规定 事件 监听 者 应 该 尽快 回答 通知 调用 ， 以 免 延 误 事件 生成 者 。 它 们 在 返回 之 后 再 处 理 通知 。 
Java RMI 也 用 于 订阅 事件 。 通 过 下 列 接口 和 类 提供 Jini 事 件 ; 
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RemoteEventListener: 这 个 接口 提供 notify 方 法 。 订 阅 者 和 第 三 方 代理 实现 RemoteEvent- 
Listener 接 口 ， 以 便 它们 可 以 在 调用 notify 方 法 的 时 候 接收 通知 。RemoteEvent 类 的 一 个 实例 表示 一 
个 通知 ， 并 且 作 为 参数 传递 到 notify 方 法 。 

RemoteEvent: 这 个 类 的 实例 变量 具有 : 

。 对 一 个 已 经 发 生 了 事件 的 事件 生成 者 的 引用 。 

。 一 个 事件 标识 符 ， 它 指定 事件 生成 者 上 的 事件 类 型 。 

。 一 个 序号 ， 它 应 用 在 那 种 类 型 的 事件 上 。 序 号 应 该 随 着 事件 的 发 生 而 递增 。 它 可 以 让 接收 

者 从 一 个 给 定 的 来 源 对 某 种 类 型 的 事件 进行 排序 ， 或 者 避免 两 次 应 用 同一 个 事件 。 

。 一 个 编码 对 象 。 它 在 接收 者 订阅 那 类 事件 时 提供 ， 供 接收 者 使 用 。 它 通常 拥有 一 些 接收 者 
需要 的 信息 ， 以 标识 这 个 事件 并 对 事件 的 发 生 做 出 反应 。 例 如 ， 这 个 编码 的 对 象 中 可 以 包含 
一 个 终止 操作 ， 这 个 操作 可 以 在 接 到 相应 通知 时 被 执行 。 

EventGenerator: 这 个 接口 提供 一 个 称 为 register 的 方法 。 事 件 生 成 者 实现 EventGenerator 接 口 ， 
其 register 方 法 用 于 订阅 事件 生成 者 上 的 事件 。register 的 参数 指定 了 : 

。 一 个 事件 标识 符 ， 用 于 指定 事件 的 类 型 。 

。 一 个 编码 对 象 ， 随 着 每 个 通知 返回 订阅 者 。 

。 对 一 个 事件 监听 者 对 象 的 远程 引用 一 一 通知 发 送 到 的 地 方 。 

。 一 个 请 求 的 租 期 。 租 期 指定 了 订阅 者 要 求 租借 的 时 间 段 ,但 是 实际 许可 的 租 期 由 register 的 结 

果 返 回 。 对 订阅 的 时 间 限 制 避 免 了 事件 生成 者 保留 无 效 订 阅 的 问题 。 租 期 过 期 后 可 以 续 订 。 

根据 Jini 规 约 ，EventGenerator 接 口 就 是 订阅 者 可 以 用 来 在 兴趣 对 象 上 注册 兴趣 事件 的 接口 的 
例子 。 有 些 应 用 可 能 需要 不 同 的 接口 。 

第 三 右 代 理 插入 到 事件 生成 者 和 订阅 者 之 间 的 第 三 方 代理 可 以 扮演 多 种 有 用 的 角色 ， 包 括 上 
述 的 那些 角色 。 

在 最 简单 的 情形 下 ， 一 个 订阅 者 在 事件 生成 者 上 注册 感 兴趣 的 事件 类 型 ， 并 将 自己 指定 为 远 
程 事 件 监听 者 。 这 对 应 于 图 5-11 中 的 情形 1。 

第 三 方 代理 可 以 由 事件 生成 者 或 者 订阅 者 设置 。 

事件 生成 者 可 能 会 在 它 自己 与 订阅 者 之 间 播 入 一 个 或 多 个 第 三 方 代 理 。 例 如 ， 每 台 计算 机 上 
的 事件 生成 者 可 以 使 用 一 个 共享 的 第 三 方 代理 来 进行 可 靠 的 通知 传递 。 

为 了 达到 所 要 求 的 传递 策略 ， 订 阅 者 可 以 创建 一 个 第 三 方 代理 链 ， 然 后 向 事件 生成 者 注册 对 
某 类 事件 的 兴趣 ， 将 第 三 方 代理 链 的 第 一 个 代理 指定 为 通知 要 发 送 到 的 地 方 。 例 如 ， 订 阅 者 可 以 
安排 由 第 三 方 代理 存储 发 送 给 它 的 通知 ， 一 直到 订阅 者 准备 好 之 后 才 接 收 这 些 通 知 。 第 三 方 代理 
可 能 还 会 负责 续 订 租借 。 


5.5 实例 研究 : Java RMI 


Java RMI 扩 展 了 Java 的 对 象 模型 ， 以 便 为 Java 语 言 中 的 对 分 布 式 对 象 提供 支持 。 特 别 是 ， 它 允 
许 对 象 用 与 本 地 调用 相同 的 语法 调用 远程 对 象 上 的 方法 。 而 且 ， 类 型 检查 也 等 效 地 应 用 到 本 地 调 
用 和 远程 调用 。 然 而 ， 发 出 远程 调用 的 对 象 知道 它 的 目标 对 象 是 远程 的 ， 因 为 它 必 须 处 理 
RemoteException， 并 且 远 程 对 象 的 实现 者 也 知道 它 是 远程 的 ， 因 为 它 必须 实现 Remote 接 口 。 尽 管 
分 布 式 对 象 模型 以 一 种 自然 的 方式 集成 到 了 Java 中 ， 但 是 由 于 调用 者 和 目标 对 象 彼此 是 远程 的 ， 因 
此 其 参数 传递 语义 是 不 相同 的 。 

用 Java RMI 进 行 分 布 式 应 用 的 编程 相对 来 说 较为 容易 ， 因 为 它 是 一 个 单 语 言 系统 一 远程 接口 
用 Java 语 言 定义 。 如 果 使 用 一 个 多 语言 系统 (如 CORBA)， 程 序 员 就 需要 学 习 IDL， 并 理解 它 如 何 映 
射 到 实现 语言 中 。 不 过 ， 即 使 在 一 个 单 语言 系统 中 ， 远 程 对 象 的 程序 员 也 必须 考虑 它 在 并 发 环境 下 
的 行为 。 
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下 面 我 们 给 出 一 个 远程 接口 的 例子 ， 然 后 讨论 与 该 例子 有 关 的 参数 传递 语义 ， 最 后 ， 我 们 讨 
论 类 的 下 载 和 绑 定 程序 。 接 下 来 讨论 如 何 为 该 例子 接口 创建 客户 和 服务 器 程序 。 然 后 研究 Java 
RMI 的 设计 和 实现 。 关 于 Java RMI 的 详细 介绍 ， 请 参见 关于 远程 调用 的 教程 [Java.sun.com 1]。 

在 这 个 实例 研究 和 第 20 章 的 CORBA 实 例 研究 ， 以 及 第 19 章 中 关于 Web 服 务 的 研究 中 ， 我 们 均 使 
用 共享 白板 作为 例子 。 这 是 一 个 允许 一 组 用 户 共享 一 个 绘图 区 域 的 分 布 式 程序 ， 该 绘图 区 域 可 以 包 
含 图 形 对 象 ， 例 如 矩形 、 线 、 圆 等 ， 每 个 图 形 由 一 个 用 户 绘制 。 服 务 器 为 了 维护 绘图 当前 的 状态 ， 
为 客户 提供 一 个 操作 ， 用 于 把 用 户 最 新 绘制 的 图 形 告诉 服务 器 ， 并 记录 它 接收 到 的 所 有 图 形 。 服 务 
器 也 提供 相应 操作 ， 让 客户 通过 轮 询 服务 器 的 方式 获取 由 其 他 用 户 绘制 的 最 新 图 形 。 服 务 器 具有 一 
个 版 本 号 (一 个 整数 )， 每 当 新 图 形 到 达 的 时 候 ， 版 本 号 就 递增 ， 并 赋予 给 该 新 图 形 。 服 务 器 还 提供 
有 关 操 作 ， 让 客户 询问 它 的 版 本 号 和 每 个 图 形 的 版 本 号 ， 以 避免 客户 取 到 它们 已 经 有 的 图 形 。 

Java RMI 中 的 远程 接口 ”远程 接口 通过 扩展 一 个 在 java.rmi 包 中 提供 的 称 为 Remote 的 接口 来 定 
义 。 方 法 必须 抛 出 RemoteException 异 常 ， 但 是 也 可 以 抛 出 特定 于 应 用 的 异常 。 图 5-12 给 出 两 个 远 
程 接 口 Shape 和 ShapeList。 在 这 个 例子 中 ，GraphicalObject 是 一 个 拥有 图 形 对 象 状态 〈 如 类型、 位 
置 、 外 接 矩 形 、 线 条 颜色 和 填充 颜色 ) 的 类 ， 该 类 提供 访问 和 更 新 图 形 对 象 状态 的 操作 。 
GraphicalObject 必 须 实现 Serializable 接 口 。 首 先 考虑 Shape 接 口 ，getVersion 方 法 返回 一 个 整数 ， 而 
getAllState 方 法 返回 GraphicalObject 类 的 一 个 实例 。 现 在 考虑 ShapeList 接 口 。 它 的 newShape 方 法 将 
GraphicalObject 类 的 一 个 实例 作为 参数 传递 ， 并 将 一 个 带 有 远程 接口 的 对 象 ( 即 一 个 远程 对 象 ) 作 
为 结果 返回 。 需 要 注意 的 重要 一 点 是 ， 普 通 对 象 和 远程 对 象 都 可 以 作为 远程 接口 中 的 参数 和 结果 。 
后 者 总 是 以 它们 的 远程 接口 名 来 表示 。 在 后 文中 ， 我 们 讨论 普通 对 象 和 远程 对 象 怎样 作为 参数 和 
结果 传递 。 


import java.rmi.*, 
import java.util.Vector; 
public interface Shape extends Remote { 
int getVersion() throws RemoteException; 
GraphicalObject getAllState() throws RemoteException; 
} 


public interface ShapeList extends Remote { 


Shape newShape{GraphicalObject 8) throws RemoteException; 


Vector allShapes( Jthrows RemotreException; 


int getVersion() throws RemoteException; 











图 5-12 Java 远程 接口 Shape 和 ShapeList 


传递 参数 和 结果 在 Java RMI 中 ， 假 定 方法 的 参数 为 输入 型 的 参数 ， 而 方法 的 结果 是 一 个 输出 
型 参数 。4.3.2 节 讲述 了 Java 序 列 化 ， 它 用 于 编码 Java RMI 中 的 参数 和 结果 。 任 何 可 序列 化 的 对 象 
( 即 它 实现 了 Serializable 接 口 ) 都 能 作为 Java RMI 中 的 参数 或 结果 传递 。 所 有 的 简单 类 型 和 远程 对 
象 都 是 可 序列 化 的 。 在 必要 的 时 候 ， 作 为 参数 和 结果 值 的 类 可 以 由 RMI 系 统 下 载 给 接收 者 。 

传递 远程 对 象 ， 当 将 参数 类 型 或 者 结果 值 类 型 定义 为 远程 接口 的 时 候 ， 相 应 的 参数 或 者 结果 
总 是 作为 远程 对 象 引用 传递 。 例 如 ， 在 图 5-12 的 第 2 行 中 ，newShape 方 法 的 返回 值 就 定义 为 
Shape 一 一 一 个 远程 接口 。 当 接收 到 一 个 远程 对 象 引 用 时 ， 它 就 可 用 于 在 它 所 指 的 远程 对 象 上 进行 
RMI 调 用 了 。 

传递 非 远程 对 象 : 所 有 可 序列 化 的 非 远程 对 象 是 在 复制 之 后 以 值 方式 传递 。 例 如 ， 在 图 5-12 
(第 2 行 和 第 1 行 ) 中 ， newShape 的 参数 和 getAllState 的 返回 值 都 是 GraphicalObject 类 型 ， 它 是 可 序 





列 化 的 并 且 以 值 方式 传递 。 当 一 个 对 象 以 值 方式 传递 时 ， 就 要 在 接收 者 的 进程 中 创建 一 个 新 对 象 。 
这 个 新 对 象 的 方法 可 以 在 本 地 调用 ， 但 这 可 能 导致 它 的 状态 与 发 送 者 进程 中 原来 的 对 象 状态 不 同 。 

这 样 ， 在 我 们 的 例子 中 ， 客 户 使 用 newShape 方 法 给 服务 器 传递 一 个 GraphicalObject 实 例 。 服 
务 器 创建 一 个 包含 GraphicalObject 状 态 的 Shape 类 型 的 远程 对 象 ， 并 返回 一 个 它 的 远程 对 象 引 用 。 
远程 调用 中 的 参数 和 返回 值 用 4.3.2 节 描述 的 方法 被 序列 化 到 一 个 流 中 ， 并 有 以 下 改变 ; 

1) 一 旦 一 个 实现 Remote 接 口 的 对 象 被 序列 化 ， 它 就 被 它 的 远程 对 象 引 用 代替 ， 该 远程 对 象 引 
用 包含 它 〈 远 程 对 象 ) 的 类 的 名 字 。 

2) 任何 一 个 对 象 被 序列 化 的 时 候 ， 它 的 类 信息 就 加 注 了 该 类 的 地 址 (作为 一 个 URL) ， 使 该 
类 能 由 接收 者 下 载 。 

类 的 下 载 Java 人 允许 类 从 一 个 虚拟 机 下 载 到 另 一 个 虚拟 机 ， 这 与 以 远程 调用 方式 通信 的 分 布 式 
对 象 尤 其 相关 。 我 们 已 经 看 到 ， 非 远程 对 象 以 值 方式 传递 ， 而 远程 对 象 以 引用 方式 传递 RMI 的 参数 
和 结果 。 如 果 接 收 者 还 没 拥 有 以 值 方式 传递 的 对 象 类 ， 那 么 它 就 会 自动 下 载 类 的 代码 。 类 似 地 ， 如 
果 远 程 对 象 引用 的 接收 者 还 没 拥 有 代理 类 ， 那 么 代理 类 的 代码 也 会 自动 下 载 。 这 样 做 有 两 个 好 处 : 

1) 不 必 为 每 个 用 户 在 他 们 的 工作 环境 中 保留 相同 类 的 集合 。 

2) 一 旦 添加 了 新 类 ， 客 户 和 服务 器 程序 能 透明 地 使 用 它们 的 实例 。 

例如 ， 考 虑 白板 程序 并 假设 GraphicalObject 的 初始 实现 没有 考虑 到 文本 ， 那 么 一 个 带 有 文本 对 
象 的 客户 就 会 实现 GraphicalObject 的 一 个 子 类 ， 用 以 处 理 文本 ， 并 将 其 实例 作为 newShape 方 法 的 
参数 传递 到 服务 器 上 。 之 后 ， 其 他 客户 能 够 使 用 getAllState 方 法 获取 这 个 实例 。 新 类 的 代码 将 自动 
地 从 第 一 个 客户 下 载 到 服务 器 ， 然 后 再 下 载 到 其 他 需要 的 客户 。 

RMIregistry ”RMIregistry 是 Java RMI 的 绑 定 程序 。RMIregistry 的 一 个 实例 必须 运行 在 每 个 驻 
留 了 远程 对 象 的 服务 器 计算 机 上 。 它 维护 着 一 张 表 ， 将 文本 格式 的 、URL 风 格 的 名 字 映 射 到 驻 留 
在 该 计算 机 上 的 远程 对 象 引 用 。 它 通过 Naming 类 的 方法 来 在 取 ，Naming 类 的 方法 以 一 个 URL 格 式 
的 字符 串 作为 参数 ; 


//computerName: port/objectName 

其 中 ，computerName 和 port 指 向 RMIregistry 的 地 址 。 如 果 它 们 被 省 略 的 话 ， 就 被 认为 是 本 地 
计算 机 和 默认 端口 。RMIregistry 的 接口 提供 如 图 5-13 所 示 的 方法 ， 读 方法 中 没有 列 出 异常 一 所 有 
的 方法 都 可 以 抛 出 RemoteException 异 常 。 这 项 服务 不 是 系统 范围 的 绑 定 服务 。 客 户 必 须 将 它们 的 
lookup 查 询 导 向 到 特定 的 主机 。 

















void rebind (String name , Remote obj ) 
服务 器 用 这 个 方法 以 名 字 注 册 一 个 远程 对 象 的 标识 符 ， 如 图 5-14 的 第 3 行 所 示 。 
void bind (String name , Remote obj ) 
服务 器 可 以 选择 使 用 这 个 方法 以 名 字 注 册 一 个 远程 对 象 ， 但 是 如 果 该 名 字 已 经 绑 定 到 了 一 个 远程 对 象 引 用 
上 ， 那 么 它 会 抛 出 一 个 异常 。 
void unbind { Stiring name , Remote obj ) 
这 个 方法 删除 一 个 绑 定 。 
Remote lookup (String name ) 
客户 可 以 使 用 这 个 方法 以 名 字 查 找 一 个 远程 对 象 ， 如 图 5-16 的 第 1 行 所 示 。 
它 返回 “个 远程 对 象 引 用 。 
String [] list { ) 
这 个 方法 返回 -个 Strings 数 组 ， 该 数组 包含 绑 定 到 注册 表 里 的 名 字 。 





图 5-13 Java RMIregistry 的 Naming 类 


Ly 
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5.5.1 创建 客户 和 服务 器 程序 


本 节 将 以 图 5-12 所 示 的 远程 接口 Shape 和 ShapeList 为 例 ， 概 述 创建 使 用 远程 接口 的 客户 和 服务 
器 程序 的 步骤 。 服 务 器 程序 是 实现 Shape 和 ShapeList 接 口 的 白板 服务 器 的 简化 版 本 。 我 们 描述 一 个 
简单 的 轮 询 客户 程序 ， 然 后 介绍 回调 技术 ， 它 可 用 于 避免 轮 询 服务 器 。 本 节 阐 述 的 这 几 个 类 的 完 
整 版 本 可 以 参见 www.cdk4 .net / rmi。 

服务 器 程序 ”服务 器 是 一 个 白板 服务 器 ， 它 把 每 种 图 形 表示 成 一 个 实现 Shape 接 口 的 伺服 器 ， 
它 拥有 图 形 对 象 的 状态 和 它 的 版 本 号 ， 它 以 另 一 个 实现 ShapeList 接 口 的 伺服 器 代表 它 的 图 形 集 ， 
并 把 图 形 集 存放 在 Vector 中 。 

为 实现 它 的 每 个 远程 接口 ， 服 务 器 包括 一 个 main 方 法 和 一 个 伺服 器 类 。 服 务 器 的 main 方 法 创 
建 ShapeListServant 的 一 个 实例 ， 并 将 它 绑 定 到 RMIregistry 中 的 一 个 名 字 上 ， 如 图 5-14 所 示 (第 1 行 
和 第 2 行 )。 广 意 ， 绑 定 到 名 字 的 值 是 一 个 远程 对 象 引用 ， 它 的 类 型 是 它 的 远程 接口 ShapeList 的 类 
型 。 两 个 伺服 器 类 是 ShapeListServant ( 它 实 现 ShapeList 接 口 ) 和 ShapeServant ( 它 实现 Shape 接 口 )。 
图 5-15 给 出 了 ShapeListServant 类 的 轮廓 。 注 意 ，ShapeListServant (第 1 行 ) 与 许多 伺服 器 类 一 样 ， 
扩展 了 一 个 名 为 UnicastRemoteObject 的 类 ， 该 类 提供 远程 对 象 ， 这 些 远 程 对 象 的 生存 时 间 与 创建 
它们 的 进程 一 样 长 。( 一 个 可 被 激活 的 对 象 可 以 继承 Activetable 类 。) 

import java.rmi.*; 
public class ShapeListServer { 
public static void main{ String args{]){ 
System.setSecurityManager(new RMISecurityManager( }); 
ry 
" ShapeList aShapeList = new ShapeListServant(): 1 
Naming.rebind{ "ShapeList", aShapeList); 
System.out.printin( "ShapeList server ready"); 


Jcatch{ Exception ejf 
System.out.println( "ShapeList server main " + e.getMessagel));} 








图 5-14 带 有 main 方 法 的 Java 类 ShapeListServer 


伺服 器 类 中 远程 接口 方法 的 实现 非常 简单 ， 因 为 它们 可 以 在 不 考虑 任何 通信 细节 的 情况 下 完 
成 。 考 虑 图 5-15 中 的 newShape 方 法 (第 2 行 )， 它 可 以 称 为 一 个 工厂 方法 ， 因 为 它 允 许 客户 请 求 创 
建 一 个 伺服 器 。 它 使 用 ShapeServant 的 构造 函数 ， 该 构造 函数 创建 一 个 新 的 伺服 器 ， 其 中 包含 作为 
参数 传递 的 GraphicalObject 和 版 本 号 。NewShape 的 返回 值 的 类 型 是 Shape 一 由 新 的 伺服 器 实现 的 
接口 。 在 返回 之 前 ，newShape 方 法 把 新 的 图 形 添加 到 包含 图 形 列表 的 向 量 中 (第 3 行 )。 
import java.rmi.*; 
import java.rmi.server.UnicastRemoteObject; 
import java.util.Vector; 
public class ShapeListServant extends UnicastRemoteObject implements ShapeList{ 
private Vector theList; Heontains the list of Shapes 7 
private int versiomy 
public ShapeListServant( )throws RemoteExceptiont...} 
public Shape newShape(GraphicalObject g) throws RemorteException{ 2 

version++; 

Shape s = new ShapeServant( g, version); 3 

theList.addElement(s); 

return 人 









2} 
public Vector allShapes( Jthrows RemoteException {2 
public int getVersion() throws RemoteException 了 





图 5-15 Java 类 ShapeListServant 实 现 ShapeList 接 口 





服务 器 的 main 方 法 需要 创建 一 个 安全 性 管理 者 ， 以 使 Java 安 全 性 能 为 RMI 服 务 器 提供 合适 的 保 
护 。 有 一 个 默认 的 安全 性 管理 者 ， 称 为 RMISecurityManager， 它 保护 本 地 资源 ， 以 确保 从 远程 站 
点 载 人 的 类 不 会 对 像 文件 这 样 的 资源 造成 影响 ,但 是 它 不 同 于 允许 程序 提供 它 自己 的 类 装载 程序 
和 使 用 反射 。 如 果 一 个 RMI 服 务 器 没有 设置 安全 性 管理 者 ， 代 理 和 类 就 只 能 从 本 地 类 路 径 
(classpath) 装载 ， 以 保护 程序 不 受 下 载 的 代码 (作为 远程 方法 调用 的 一 个 结果 ) 的 干扰 。 

客户 程序 ShapeList 服 务 器 的 一 个 简化 的 客户 见 图 $-16 所 示 。 任 何 客户 程序 都 需要 从 使 用 绑 定 
程序 查找 远程 对 象 引 用 开始 。 我 们 的 客户 设置 了 一 个 安全 性 管理 者 ， 然 后 使 用 RMjJregistry 的 
lookup 操 作 (第 1 行 ) 为 远程 对 象 查找 一 个 远程 对 象 引 用 。 在 获取 了 一 个 初始 的 远程 对 象 引用 后 ， 
客户 继续 发 送 RMI 给 那个 远程 对 象 ， 或 者 根据 应 用 的 需要 发 送 给 在 执行 期 间 发 现 的 其 他 对 象 。 在 
我 们 的 例子 中 ， 客 户 调用 远程 对 象 的 allShapes 方 法 (第 2 行 )， 并 接收 一 个 当前 存储 在 服务 器 中 的 
所 有 图 形 的 远程 对 象 引 用 的 向 量 。 如 果 客 户 正在 实现 一 个 白板 显示 ， 那 么 它 将 使 用 服务 器 上 Shape 
接口 中 的 getAllState 方 法 ， 以 获取 向 量 中 的 每 个 图 形 对 象 ， 并 将 它们 显示 在 窗口 中 。 每 次 用 户 绘制 
完 图 形 对 象 后 ， 它 就 调用 服务 器 里 的 newShape 方 法 ， 将 新 的 图 形 对 象 作 为 参数 传递 。 客 户 会 记录 
服务 器 上 的 最 新 版 本 号 ， 它 还 不 时 调用 服务 器 上 的 getVersion 方 法 ， 以 查找 别 的 用 户 是 否 已 经 添加 
了 一 些 新 的 图 形 。 如 果 有 新 图 形 ， 它 将 检索 出 来 并 加 以 显示 。 





import java.rmi.*» 
import java.rmi.server. *.» 
import java.util.Vector; 
public class ShapeListClient{ 
public static void main(String args[){ 
System.setSecurityManager(new RMISecurityManager(); 
ShapeList aShapeList = null; 
try{ 
aShapeList = (ShapeList) Naming.lookup("/bruno.ShapeList") ; 
Vector sList = aShapeList.allShapesO); 2 
} catch(RemoteException e) {System.out printin(e.getMessage()); 
jcatch(Exception e) {System.out.printIn( "Client: " + e.getMessage():} 
3 


bh 








图 5-16 ShapeList 的 Java 客 户 


回调 回调 的 基本 思想 是 ， 客 户 不 用 为 找 出 某 个 事件 是 否 已 经 发 生 而 轮 询 服务 器 ， 而 是 当 事 件 
发 生 时 ， 由 服务 器 通知 它 的 客户 。 回 调 指 服务 器 为 某 一 事件 通知 客户 的 动作 。 在 RMI 中 按 如 下 方 
式 实现 回调 : 

* 客户 创建 一 个 远程 对 象 ， 该 对 象 实现 一 个 接口 ， 接 口中 包含 一 个 供 服务 器 调用 的 方法 。 我 们 

称 该 对 象 为 回调 对 象 。 

* 服务 器 提供 一 个 操作 ， 让 感 兴趣 的 客户 通知 服务 器 客户 的 回调 对 象 的 远程 对 象 引 用 ， 服 务 器 

将 这 些 引 用 记录 在 一 张 列 表 中 。 

"一旦 感 兴趣 事件 发 生 ， 服 务 器 就 调用 感 兴趣 的 客户 。 例 如 ， 和 白板 服务 器 会 在 添加 了 一 个 图 形 

对 象 的 时 候 调 用 它 的 客户 。 

使 用 回调 可 以 避免 客户 轮 询 服务 器 上 的 兴趣 对 象 ， 但 它 有 以 下 缺点 : 

“ 服务 器 的 性 能 会 因为 时 常 的 轮 询 而 降低 。 

“客户 不 能 及 时 通知 用 户 已 经 做 了 更 新 。 

然而 ， 回 调 也 有 它 自 身 的 问题 。 首 先 ， 服 务 器 需要 有 客户 回调 对 象 的 最 新 列表 ， 但 是 客户 并 
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不 总 是 能 在 它 退 出 之 前 通知 服务 器 ， 这 会 导致 服务 器 中 的 列表 不 正确 。 利 用 5.2.6 节 介绍 的 租借 技 
术 可 以 解决 这 个 问题 。 与 回调 相关 的 第 二 个 问题 是 服务 器 需要 发 送 一 系列 同步 的 RMI 给 列表 中 的 
回调 对 象 。 想 了 解 第 二 个 问题 的 解决 之 道 ， 请 参见 5.4.1 节 和 练习 5.18。 

我 们 蚀 述 了 白板 应 用 中 回调 的 使 用 。WriteboardCallback 接 口 可 以 定义 为 : 

public interface WhiteboardCallback implements Remote { 

void callback ( int version ) throws RemoteException ; 

2} > 
由 客户 将 该 接口 作为 远程 对 象 实 现 ， 使 服务 器 能 在 添加 了 新 对 象 的 时 候 将 版 本 号 发 送 给 客户 。 
但 是 在 服务 器 这 样 做 之 前 ， 客 户 要 通知 服务 器 它 的 回调 对 象 。 为 使 之 成 为 可 能 ，ShapeList 接 口 还 
要 求 一 些 附加 的 方法 ， 例 如 register 和 deregister， 其 定义 如 下 : 

int register ( WhiteboardCallback callback ) throws RemoteException ; 

void deregister ( int callbackld ) throws RemoteException ; 

在 客户 取得 了 对 具有 ShapeList 接 口 的 远程 对 象 引 用 (例如 图 5-16 中 的 第 1 行 ) 并 创建 了 一 个 回 
调 对 象 实例 之 后 ， 它 就 使 用 ShapeList 的 register 方 法 通知 服务 器 它 对 接收 回调 感 兴趣 。register 方 法 
返回 一 个 整数 (callback1d) 代表 注册 。 当 客户 完成 的 时 候 ， 它 会 调用 deregister 通 知 服务 器 它 不 再 
请 求 回调 了 。 服 务 器 负责 维持 一 张 感 兴趣 客户 的 列表 ， 并 在 每 次 版 本 号 增加 的 时 候 通知 所 有 客户 。 


5.5.2 Java RMI 的 设计 和 实现 


最 初 的 Java RMI 系 统 使 用 了 图 5-7 中 的 所 有 组 件 。 但 是 在 Java 1.2 中 ， 使 用 了 反射 机 制 来 创建 通 
用 的 分 发 器 并 避免 骨架 的 使 用 。 客 户 代理 由 一 个 称 为 rmic 的 编译 器 根据 已 经 编译 好 的 服务 器 类 来 创 
建 一 一 不 再 根据 远程 接口 定义 来 创建 。 

反射 的 使 用 反射 用 于 传递 请 求 消息 中 关于 被 调用 方法 的 信息 。 这 是 借助 于 反射 包 中 的 
Method 类 完成 的 。Method 的 每 个 实例 代表 一 个 方法 的 特征 ， 包 括 它 的 类 、 它 的 参数 类 型 、 返 回 值 
和 异常 。 这 个 类 的 最 大 特点 是 Method 的 实例 能 通过 它 的 invoke 方 法 被 一 个 合适 的 类 的 对 象 调 用 。 
调用 方法 需要 两 个 参数 ， 第 一 个 参数 指定 接收 调用 的 对 象 ， 第 二 个 参数 是 一 个 包含 参数 的 Object 数 
组 。 结 果 作为 Object 类 型 返回 。 

再 回 到 RMI 中 Method 类 的 使 用 , 代理 必须 把 方法 及 其 参数 的 信息 编码 到 请 求 消息 中 。 对 于 方法 ， 
代理 将 它 编码 成 Method 类 的 一 个 对 象 。 它 把 参数 放 和 人 一 个 Objects 数 组 中 ， 然 后 编码 该 数组 。 分 发 器 
从 请 求 消息 中 解码 Method 对 象 和 它 在 Objects 数 组 中 的 参数 。 通常 ， 目 标 对 象 的 远程 引用 已 经 被 解码 ， 
对 应 的 本 地 对 象 引用 已 从 远程 引用 模块 中 获得 。 然 后 ， 分 发 器 用 目标 对 象 和 参数 值 数 组 调用 Method 
对 象 的 invoke 方 法 。 执 行 方法 后 ， 分 发 器 将 结果 或 者 出 现 的 异常 编码 到 reply 消 息 中 。 

这 样 ， 分 发 器 是 通用 的 。 也 就 是 说 ， 相 同 的 分 发 器 能 用 于 所 有 远程 对 象 类 ， 而 且 不 需要 骨 
架 了 。 

支持 RMI 的 Java 类 ”图 5-17 给 出 了 支持 Java RMI 服 务 RemoteObject 
器 的 类 的 继承 结构 。 程 序 员 只 需要 知道 UnicastRemote- \ 

Object 类 ， 每 个 简单 的 伺服 类 都 要 扩展 它 。UnicastRem- 

oteObject 类 扩展 了 一 个 称 为 RemoteServer 的 抽象 类 ， RemoteServer 

Remoteserver 提 供 远 程 服务 器 所 请 求 的 方法 的 抽象 版 本 。 / \ 

对 RemoteServer, 第 一 个 要 提供 的 是 UnicastRemoteObject， Activatable UnicastRemoteObject 

另 一 个 要 提供 的 是 Activatable ， 现 在 用 于 提供 主动 对 象 。 \ 

其 他 选择 可 能 就 是 提供 复制 对 象 了 。RemoteServer 类 是 

RemoteObject 类 的 一 个 子 类 ， 它 的 实例 变量 有 一 个 远程 对 “ 何 服 峰 对 象 > 
象 引 用 ， 并 提供 如 下 的 方法 : 图 5-17 支持 Java RMI 的 类 
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equals: 这 一 方法 用 于 比较 远程 对 象 引用 。 

toString: 这 一 方法 用 于 以 String 类 型 给 出 远程 对 象 引用 的 内 容 。 
readObject、writeObject: 这 些 方法 用 于 序列 化 / 解 序列 化 远程 对 象 。 
另外 ，instanceOf 操 作 符 能 用 于 测试 远程 对 象 。 


5.6 小 结 


本 章 讨论 了 两 种 分 布 式 编程 的 范 型 一 一 远程 方法 调用 和 基于 事件 的 系统 。 这 两 种 范 型 都 把 分 布 
式 对 象 看 成 是 能 够 互相 通信 的 独立 实体 。 在 第 一 种 情形 下 ， 某 个 对 象 的 远程 接口 中 的 一 个 方法 被 
同步 地 调用 一 一 调用 者 等 待 应 答 ， 在 第 二 种 情形 下 ， 每 次 兴趣 对 象 上 发 生 了 一 个 已 发 布 的 事件 ， 就 
把 通知 异步 地 传送 到 多 个 订阅 者 。 

分 布 式 对 象 模型 是 面向 对 象 编程 语言 所 使 用 的 本 地 对 象 模型 的 一 种 扩展 。 封 装 的 对 象 构成 了 
分 布 式 系统 中 有 用 的 组 件 ， 因 为 封装 性 使 它们 完全 负责 管理 自己 的 状态 ， 而 且 方 法 的 本 地 调用 可 
以 扩展 到 远程 调用 。 分 布 式 系 统 中 的 每 个 对 象 都 有 一 个 远程 对 象 引 用 〈 一 个 全 局 唯一 的 标识 符 ) 
和 一 个 指定 它 的 哪个 操作 可 以 被 远程 调用 的 远程 接口 。 

本 地 方法 调用 提供 恰好 一 次 语义 ， 而 远程 方法 调用 不 能 保证 也 提供 恰好 一 次 语义 ， 因 为 两 个 
参与 的 对 象 在 不 同 的 计算 机 上 ， 它 们 可 能 分 别 出 故 障 ， 而 且 用 于 连接 的 网 络 也 可 能 出 故障 。 最 好 
管理 的 是 最 多 一 次 调用 语义 。 由 于 它们 的 故障 和 性 能 特征 不 同 ， 加 之 对 远程 对 象 并 发 访问 的 可 能 
性 ， 让 远程 调用 与 本 地 调用 的 表现 完全 相同 未 必 是 个 好 想法 。 

RMI 中 间 件 实现 提供 了 代理 、 骨 架 和 分 发 器 等 组 件 ， 这 些 组 件 为 客户 和 服务 器 的 编程 人 员 隐 
藏 了 编码 、 消 息 传递 和 定位 远程 对 象 的 细节 。 这 些 组 件 可 以 由 接口 编译 器 生成 。Java RMI 使 用 相 
同 的 语法 将 本 地 调用 扩展 到 远程 调用 ， 但 是 远程 接口 必须 通过 扩展 一 个 称 为 Remote 的 接口 来 指定 ， 
并 让 每 个 方法 抛 出 一 个 RemoteException 异 常 。 这 可 以 确保 让 程序 员 知道 什么 时 候 发 送 远程 调用 或 
者 实现 远程 对 象 ， 使 他 们 能 处 理 错误 ， 或 者 为 并 发 访问 设计 合适 的 对 象 。 

基于 事件 的 分 布 式 系 统 可 用 于 分 布 式 异 构 对 象 的 相互 通信 。 不 同 于 RMI， 对 象 不 必 具 有 接收 
消息 的 远程 接口 一 一 它们 所 需要 做 的 全 部 事情 就 是 实现 一 个 接收 通知 和 订阅 事件 的 接口 。 生 成 事件 
的 对 象 需要 发 送 异 步 通知 。 接 口 的 简单 性 使 得 给 已 经 存在 的 对 象 增 加 事件 变 得 很 容易 。 处 理事 件 
的 其 他 工作 (如 过 滤 和 查找 模式 ) 可 以 由 观察 者 完成 一 -观察 者 是 为 此 类 目的 而 添加 到 系统 的 第 三 
方 对 象 。 


练习 


5.1 Election 接 口 提供 两 个 远程 方法 : 
vote: 带 有 两 个 参数 ， 客 户 通过 这 两 个 参数 提供 一 个 候选 者 名 字 (一 个 字符 串 ) 和 “投票 者 
编号 ”( 一 个 用 于 确保 每 个 用 户 刚好 只 投票 一 次 的 整数 )。 投 票 者 编号 在 整数 的 范围 内 随机 地 
选择 ， 以 便 不 会 被 他 人 轻易 地 猜 中 。 
result， 带 有 两 个 参数 ， 服 务 器 通过 这 两 个 参数 给 客户 提供 候选 者 的 名 字 和 候选 者 的 投票 编号 。 
这 两 个 过 程 中 的 哪个 参数 是 输入 型 的 ， 哪 个 是 输出 型 的 ? (第 179 页 ) 
5.2 讨论 在 TCP/IP 连 接 之 上 实现 请 求 一 应 答 协 议 的 时 候 可 以 获得 的 调用 语义 ， 该 调用 语义 要 确保 
数据 按 发 送 顺 序 到 达 ， 既 不 丢失 数据 也 不 复制 数据 。 考 虑 导致 连接 中 断 的 所 有 条 件 。 


(4.2.4 节 ， 第 187 页 ) 
5.3 以 CORBA IDL 和 Java IDL 定 义 Election 服 务 的 接口 。 注 意 ，CORBA IDL 提 供 32 位 的 整数 类 型 
long。 比 较 这 两 种 语言 中 指定 输入 型 和 输出 型 参数 的 方法 。 (图 5-2， 图 5-12) 


5.4 Blection 服 务必 须 确保 每 次 用 户 想 投票 的 时 候 ， 其 选票 就 被 记录 下 来 。 
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讨论 在 Election 服 务 上 使 用 或 许 调用 语义 的 效果 。 
至 少 一 次 调用 语义 会 被 Election 服 务 接受 吗 ? 你 认为 应 该 使 用 至 多 一 次 调用 语义 吗 ? (第 188 页 ) 
在 一 种 带 有 遗漏 故障 的 通信 服务 上 实现 请 求 一 应 答 协议 ， 以 提供 至 少 一 次 的 RMI 调 用 语义 。 
在 第 一 种 情形 中 ， 实 现 者 假设 一 个 异 构 的 分 布 式 系 统 。 在 第 二 种 情形 中 ， 实 现 者 假设 通信 和 
远程 方法 执行 的 最 大 时 间 是 T。 用 哪 种 方法 能 简化 后 者 的 实现 ? (第 187 页 ) 
在 Election 服 务 中 ， 要 确保 在 多 个 客户 并 发 访问 上 时， 选举 记录 能 保持 一 致 。 简 述 其 如 何 实现 。 
(第 198 页 ) 

Election 服 务必 须 确保 安全 地 存储 所 有 的 选票 ， 即 使 服务 器 进程 崩溃 也 是 如 此 。 参 考 练习 5.6， 
解释 如 何 实现 这 一 点 。 (第 193 页 一 第 194 页 ) 
解释 如 何 采 用 Java 反射 构造 Election 接 口 的 客户 代理 类 。 给 出 该 类 中 一 个 方法 的 实现 细节 ， 它 
应 该 用 以 下 基调 调用 doOperation 方 法 : 
byte [] doOperation ( RemoteObjectRef o, Method m, byte [] arguments ) 

提示 ， 代理 类 的 一 个 实例 变量 应 该 具有 一 个 远程 对 象 引 用 ( 见 练习 4.12)。( 图 4-15， 第 215 页 ) 
解释 如 何 根据 CORBA 接 口 定义 (练习 5.3 中 给 出 的 ) 使 用 像 C++ 这 种 不 支持 反射 的 语言 ， 生 
成 一 个 客户 代理 类 。 给 出 该 类 中 一 个 方法 实现 的 细节 ， 它 应 该 调用 图 4-15 中 定义 的 
doOperation 方 法 。 (第 192 页 ) 
解释 如 何 使 用 Java 反射 构造 一 个 通用 的 分 发 器 。 给 出 具有 下 列 基调 的 分 发 器 的 Java 代 码 ; 
public void dispatch ( Object target, Method aMethod , byte [J] args ) 

参数 包括 目标 对 象 、 被 调用 的 方法 和 以 字 节 数组 表示 的 方法 所 需 的 参数 。 (第 215 页 ) 
练习 5.8 要 求 客户 在 调用 doOperation 之 前 将 Object 参数 转化 成 一 个 字 节 数组 ， 练 习 5.10 要 求 分 
发 器 在 调用 方法 之 前 将 字 节 数组 转化 成 一 个 Objects 数 组 。 讨 论 具 有 下 列 基调 的 doOperation 的 
实现 : 

Object [] doOperation f RemoteObjectRef o, Method m, Object [] arguments ) ; 

它 使 用 ObjectOutputStream 和 ObjectInputStream 类 在 客户 和 服务 器 之 间 基 于 TCP 连 接 传 
递 请 求 和 应 答 消息 。 这 些 改 变 会 如 何 影响 分 发 器 的 设计 ? (4.3.2 节 ,第 215 页 ) 
一 个 客户 向 服务 器 发 出 远程 过 程 调用 。 客 户 花 5ms 时 间 计 算 每 个 请 求 的 参数 ， 服 务 器 花 10ms 
时 间 处 理 每 个 请 求 。 本 地 操作 系统 操作 每 次 发 送 和 接收 操作 的 时 间 是 0.5ms， 网 络 传递 每 个 
请 求 或 者 应 答 消 息 的 时 间 是 3ms。 编 码 或 者 解码 每 个 消息 花 0.5ms 时 间 。 
计算 下 列 情况 下 客户 创建 和 返回 消息 所 花费 的 时 间 : 

(1) 如 果 它 是 单线 程 的 。 
(2) 如 果 它 有 两 个 线程 ， 这 两 个 线程 能 在 一 个 处 理 器 上 并 发 地 发 出 请 求 。 

你 可 以 忽略 其 他 上 下 文 转换 的 时 间 。 如 果 客 户 和 服务 器 处 理 器 是 线程 化 的 ， 就 需要 异步 
RPC 吗 ? (第 193 页 ) 
设计 一 个 支持 分 布 式 无 用 单元 收集 和 在 本 地 对 象 引 用 与 远程 对 象 引 用 之 间 转 化 的 远程 对 象 
表 。 给 出 一 个 例子 ， 其 中 涉及 在 不 同 地 址 上 的 几 个 远程 对 象 和 代理 ， 以 阐述 该 表 的 使 用 。 给 
出 当 调 用 导致 创建 新 代理 时 表 的 变化 。 然 后 给 出 当 一 个 代理 不 可 用 时 表 的 变化 。 (第 195 页 ) 
5.2.6 节 描述 了 分 布 式 无 用 单元 收集 算法 的 一 个 简单 版 本 , 该 算法 在 每 次 创建 一 个 新 的 代理 时 ， 
就 调用 远程 对 象 所 在 地 的 addRef， 每 次 删除 一 个 代理 时 ， 就 调用 removeRef。 概 述 算法 中 通 
信 故 障 和 进程 故障 可 能 造成 的 影响 。 提 出 解决 每 种 影响 的 建议 ， 但 是 不 能 使 用 租借 。 

(第 195 页 ) 
讨论 在 共享 白板 应 用 程序 中 ， 如 何 使 用 Jini 分 布 式 事件 规约 中 描述 的 事件 和 通知 。 
RemoteEvent 类 由 Arnold 等 人 [1999] 定 义 如 下 : 


public class RemoteEvent extends java.util.EventObject { 
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public RemoteEvent ({ Object source , long eventID, 
long seqNum , MarshalledObject handback ) 

public Object getSource { ){ ...} 

public long geuD ()}{...} 

public long getSequenceNumber ( ){ ...} 

public MarshalledObject getRegistrationObject {( ){...} 


2 
构造 函数 的 第 一 个 参数 是 远程 对 象 。 用 通知 告诉 监听 者 事件 已 经 发 生 ， 由 监听 者 负责 获取 更 
进一步 的 细节 。 (第 206 页 ， 第 208 页 ) 


5.16 设计 一 种 通知 邮箱 服务 ， 该 服务 用 于 代表 多 个 订阅 者 存储 通知 ， 允 许 订 阅 者 指定 什么 时 候 要 
求 传递 通知 。 解 释 那 些 并 不 总 是 主动 的 订阅 者 如 何 利 用 你 描述 的 这 种 服务 。 读 服务 怎样 处 理 
订阅 者 在 打开 了 消息 传输 后 进程 崩溃 掉 的 情形 ? (第 206 页 ) 
5.17 解释 如 何 使 用 一 个 转发 观察 者 以 增强 事件 服务 中 兴趣 对 象 的 可 靠 性 和 性 能 。 (第 205 页 ) 
5.18 提出 一 种 观察 者 能 使 用 的 方法 ， 以 增强 为 练习 5.15 所 提供 的 解决 方案 的 可 靠 性 或 性 能 。 
(第 205 页 ) 已 19 
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第 6 章 操作 系统 支持 


本 章 介 绍 在 分 布 式 系统 的 节点 上 操作 系统 设施 是 如 何 支持 中 间 件 的 。 操 作 系统 实现 了 在 服务 
器 端的 资源 封装 和 保护 ， 同 时 它 还 支持 用 于 访问 资源 的 调用 机 制 ， 其 中 包括 通信 和 调度 。 

系统 内 核 的 作用 是 本 章 的 一 个 重要 内 容 。 本 章 的 目标 是 使 读者 了 解 在 保护 域 中 划分 功能 的 优 
点 和 缺点 ， 特 别 是 划分 内 核 级 和 用 户 级 代码 的 功能 。 本 章 还 将 介绍 内 核 级 设施 与 用 户 级 设施 间 的 
平衡 ， 其 中 包括 效率 和 健壮 性 之 间 的 关系 。 

本 章 还 将 探讨 多 线程 处 理 和 通信 设施 的 设计 和 实现 问题 ， 然 后 介绍 已 经 设计 实现 的 主要 的 内 
核 结构 。 


6.1 简介 


第 2 章 已 经 介绍 了 分 布 式 系统 中 的 主要 软件 层次 。 我 们 已 经 知道 ， 资 源 共 享 是 分 布 式 系统 的 一 
个 重要 方面 。 客 户 端的 应 用 程序 所 调用 的 资源 很 可 能 在 另 一 节点 上 或 另 一 进程 上 。 应 用 程序 (以 
客户 的 形式 出 现 ) 和 服务 器 〈 以 资源 管理 者 的 形式 出 现 ) 使 用 中 间 件 来 进行 交互 。 中 间 件 提供 了 
分 布 式 系统 的 各 节点 中 对 象 或 进程 间 的 远程 调用 。 第 5 章 介绍 了 中 间 件 中 远程 调用 的 主要 类 型 ， 例 
如 Java RMI 和 CORBA。 本 章 将 继续 介绍 没有 实时 保证 的 远程 调用 (第 17 章 将 介绍 对 实时 和 面向 数 
据 流 的 多 媒体 通信 的 支持 )。 

在 中 间 件 层 下 面 是 操作 系统 (OS) 层 ， 它 是 本 章 的 主题 。 本 章 会 介绍 这 两 层 之 间 的 关系 ， 特 
别 要 介绍 操作 系统 是 如 何 满足 中 间 件 需求 的 。 这 些 需求 包括 坊 问 物理 资源 的 效率 和 健壮 性 以 及 实 

现 多 种 资源 管理 策略 的 灵活 性 。 

任何 一 个 操作 系统 的 目标 都 是 提供 一 一 个 在 物理 层 (处 理 器 . 内 存 、 通 信 设 备 和 存储 介质 ) 之 
上 的 面向 问题 的 抽象 。 例 如 ，UNIX (及 其 衍生 版 本 ， 如 Linux) 或 Windows (及 其 各 个 版 本 ， 如 
XP) 给 程序 员 提供 的 是 文件 和 套 接 字 的 形式 而 不 是 磁盘 块 和 原始 网 络 访问 。 操 作 系 统管 理 某 节 点 
的 物理 资源 并 通过 系统 调用 接口 抽象 地 表示 这 些 资源 。 

在 详细 描述 操作 系统 对 中 间 件 的 支持 之 前 ， 首 先 回顾 一 下 在 分 布 式 系统 发 展 过 程 中 的 两 个 概 
念 : 网 络 操作 系统 和 分 布 式 操作 系统 。 它 们 的 定义 虽然 不 同 ， 但 它们 的 概念 却 有 些 相 似 。 下 面 将 
对 它们 加 以 介绍 。 

UNIX 和 Windows 都 是 网 络 操作 系统 。 它 们 都 具有 网 络 连接 功能 ， 因 此 可 以 用 它们 来 访问 远程 
资源 。 它 们 能 网 络 透明 地 访问 一 些 资源 (但 不 是 所 有 资源 )。 例 如 ， 通 过 分 布 式 文件 系统 (如 NEFS )， 
用 户 能 网 络 透明 地 访问 文件 。 也 就 是 说 ， 许 多 用 户 所 需 的 文件 是 存储 在 远 端 或 服务 器 上 的 文件 ， 而 
对 于 应 用 程序 来 说 这 些 文件 是 位 置 透明 的 。 

网 络 操作 系统 的 特点 是 运行 于 其 上 的 节点 能 独立 地 管理 自己 的 进程 资源 。 也 就 是 说 ， 在 网 络 
的 每 一 个 节点 上 都 有 多 个 系统 映像 。 通 过 网 络 操作 系统 ， 用 户 能 使 用 rlogin 或 telnet 远 程 登录 到 其 他 
的 计算 机 上 并 在 其 上 运行 进程 。 然 而 ， 与 操作 系统 管理 本 地 节点 计算 机 上 的 进程 不 同 ， 网 络 操作 
系统 并 不 在 节点 间 调 度 进程 。 

相反 ， 可 以 设想 存在 这 样 一 种 操作 系统 ， 通 过 它 用 户 不 必 关 心 程序 的 运行 地 点 和 资源 位 置 ， 
也 就 是 说 ， 网 络 上 只 有 一 个 单一 系统 映像 。 这 种 操作 系统 必须 能 够 控制 系统 中 所 有 的 节点 ， 并 且 
它 能 透明 地 将 新 的 进程 定位 在 符合 调度 策略 的 节点 上 。 例 如 ， 它 能 在 负载 最 小 的 节点 上 生成 新 的 
进程 以 防止 单个 节点 过 载 。 
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如 果 一 个 操作 系统 能 如 上 所 述 在 分 布 式 系统 中 ， 对 所 有 资源 只 生成 单一 系统 映像 ， 那 么 这 个 
系统 就 是 一 个 分 布 式 操作 系统 [Tanenbaum and van Renesse 1985]。 

中 间 件 和 网 络 操作 系统 ”事实 上 ， 除 了 UNIX、MacOS 和 Windows 这 些 网 络 操作 系统 外 ， 几 平 
没有 普遍 应 用 的 分 布 式 操作 系统 。 有 两 个 主要 原因 造成 这 种 情况 ， 其 一 是 用 户 已 经 为 能 够 满足 他 
当前 需要 的 应 用 软件 进行 了 大 量 的 投资 ， 所 以 无 论 新 的 操作 系统 有 多 么 优越 的 特性 ， 如 果 它 不 能 
运行 这 些 应 用 软件 ， 用 户 也 不 会 使 用 它 。 有 人 尝试 在 新 的 系统 核心 上 模拟 UNIX 和 其 他 操作 系统 的 
内 核 ， 但 模拟 的 性 能 却 不 能 令 人 满意 。 而 且 ， 模 拟 所 有 的 主流 操作 系统 本 身 就 是 一 项 繁重 的 工作 。 

第 二 个 原因 是 ， 即 使 在 一 个 小 单位 里 ， 用 户 也 更 愿意 独立 地 管理 自己 的 机 器 。 其 中 一 个 重要 
的 因素 是 性 能 [Douglis and Ousterhout 1991] 的 原因 。 例 如 ， 当 Jones 写 一 个 文档 时 ， 她 需要 很 好 的 
交互 性 ， 而 如 果 系 统 由 于 运行 了 Smith 的 程序 而 使 交互 变 慢 ， 她 必定 会 不 高 兴 。 

中 间 件 和 网 络 操作 系统 的 结合 为 独立 性 和 网 络 资源 透明 访问 之 间 提 供 了 平衡 。 网 络 操作 系统 使 用 
户 能 运行 他 的 字 处 理 程序 和 其 他 独立 运行 的 程序 。 中 间 件 使 他 们 能 享受 到 分 布 式 系统 所 提供 的 服务 。 

下 一 节 将 介绍 操作 系统 层 的 功能 。6.3 节 介绍 资源 保护 的 低层 机 制 ， 以 便 我 们 能 了 解 进程 和 线 
程 之 间 的 关系 ， 以 及 内 核 的 作用 。6.4 节 介绍 进程 、 地 址 空间 和 线程 ， 其 中 主要 介绍 并 发 、 局 部 资 
源 的 管理 保护 和 调度 。6.5 节 介绍 调用 机 制 的 一 部 分 一 一 通信 。6.6 节 介绍 不 同类 型 的 操作 系统 的 体 
系 结构 ， 其 中 包括 整体 内 核 和 微 内 核 设计 。 读 者 可 以 在 www.cdk4.net/oss 上 找到 有 关 Mach 内 核 以 
及 Amoeba、Chorus 和 Clouds 操 作 系 统 的 实例 分 析 。 


6.2 操作 系统 层 


只 有 当中 间 件 和 操作 系统 的 联合 具有 良好 的 性 能 时 ， 用 户 才 会 满意 。 由 于 分 布 式 系统 的 每 个 
节点 都 有 各 自 的 操作 系统 和 硬件 设备 (平台 )， 因 此 中 间 件 需要 运行 在 不 同 的 操作 系统 和 硬件 组 合 
上 上。 运行 在 节点 上 的 操作 系统 都 有 其 内 核 和 相关 的 用 户 级 服务 ， 如 一 些 库 ， 这 些 操作 系统 能 为 进 
程 、 存 储 和 通信 提供 本 地 硬件 资源 的 抽象 。 中 间 件 将 这 些 本 地 资源 联合 起 来 以 实现 在 不 同 节点 的 
对 象 和 进程 之 间 提 供 远程 调用 的 机 制 。 

图 6-1 给 出 了 两 个 节点 上 的 操作 系统 层 如 何 支 持 一 个 公共 的 中 间 件 层 ， 从 而 为 应 用 和 服务 提供 
一 个 分 布 式 基 础 设施 。 





图 6-1 系统 层次 


本 章 的 目标 是 讨论 某 种 操作 系统 机 制 对 中 间 件 提供 共享 分 布 式 资源 能 力 的 影响 。 内 核 和 运行 
于 其 上 的 客户 和 服务 器 进程 是 我 们 所 关心 的 主要 组 件 。 内 核 和 服务 器 进程 用 于 管理 资源 和 为 客户 
提供 资源 接口 。 因 此 ， 它 们 至 少 应 该 具备 以 下 特点 : 

封装 : 它们 应 该 提供 有 用 的 能 够 访问 资源 的 服务 接口 ， 也 就 是 说 ， 它 所 提供 的 操作 集 必须 满 
足 客户 的 需要 ， 而 像 内 存 管理 和 设备 管理 这 样 由 于 实现 资源 的 服务 的 细节 应 该 对 客户 隐藏。 

保护 ; 资源 需要 被 保护 以 防止 非法 访问 。 例 如 ， 没 有 文件 读 权限 的 用 户 不 能 访问 文件 ， 而 且 


A 


应 用 程序 进程 也 不 能 访问 设备 寄存 器 。 

并 发 处 理 : 客户 可 以 共享 资源 并 能 并 发 地 访问 它们 。 并 发 透明 性 由 资源 管理 器 负责 实现 。 

客户 可 以 通过 远程 方法 调用 访问 一 个 服务 器 对 象 ， 或 者 通过 系统 调用 访问 内 核 。 我 们 将 访问 
一 个 已 封装 资源 的 方式 称 为 调用 机 制 ， 而 不 管 其 是 如 何 实现 的 。 库 、 内 核 和 服务 器 的 联合 系统 可 
以 实现 如 下 与 调用 相关 的 任务 

通信 : 资源 管理 器 接收 来 自 于 网 络 上 或 计算 机 内 部 的 
操作 参数 并 返回 结果 。 

调度 : 当 一 个 操作 被 调用 时 ， 必 须 在 内 核 或 服务 器 上 
调度 相应 操作 。 

图 6-2 给 出 了 我 们 所 关心 的 操作 系统 的 儿 个 内 核 部 分 ; 
进程 和 线程 管理 、 内 存 管 理 以 及 本 机 进程 间 的 通信 (图 上 
水 平 的 分 割 线 表 示 依 赖 关系 ) 。 内 核 提供 其 中 的 大 部 分 功能 ， WE 
在 某 些 操作 系统 中 ， 内 核实 现 上 述 全 部 功能 。 0 

在 可 能 的 情况 下 ， 操 作 系统 软件 可 在 不 同 的 计算 机 体系 结构 间 移 植 。 这 就 意味 着 操作 系统 的 
大 部 分 代码 是 用 C、C++ 或 Modula-3 这 样 的 高 级 语言 编写 的 ， 而 且 操 作 系 统 的 各 个 部 分 是 分 层 实 现 
的 ， 从 而 可 以 将 依赖 于 机 器 的 组 件 作为 底 县 实现 。 一 些 内 核 可 以 在 共享 内 存 的 多 处 理 器 上 执行 ， 
下 面 将 对 其 做 详细 的 介绍 。 
共享 内 存 多 处 理 器 ”共享 内 存 多 处 理 器 计算 机 具有 多 个 处 理 器 并 共享 一 个 或 多 个 内 存 模块 
(RAM)。 处 理 器 也 可 以 有 自己 的 内 存 。 多 处 理 器 计算 机 有 多 种 构造 方式 [Stone 1993]， 最 简单 
也 是 最 便宜 的 方式 是 在 单 台 个 人 计算 机 的 主板 上 包含 若干 (2 一 8) 处 理 器 来 实现 多 处 理 器 系统 。 

在 常见 的 对 称 处 理 体 系 结构 上 ， 每 个 处 理 器 都 执行 同样 的 内 核 ， 并 且 这 些 内 核 在 管理 硬件 
资源 时 都 扮演 同样 的 角色 。 这 些 内 核 共享 关键 的 数据 结构 (例如 可 运行 线程 队列 )， 但 它们 也 
拥有 一 些 私 有 的 数据 。 处 理 器 能 同时 执行 各 自 的 线程 ， 也 可 以 同时 访问 共享 内 存 中 的 私有 ( 受 
硬件 保护 的 ) 或 公有 数据 。 

许多 高 性 能 计算 任务 可 以 由 多 处 理 器 来 实现 。 在 分 布 式 系 统 中 ， 因 为 多 处 理 器 的 服务 器 可 
以 运行 一 个 具有 多 线程 的 程序 来 同时 处 理 多 个 客户 的 请 求 ， 故 它 特别 适合 于 高 性 能 服务 器 的 实 
现 ， 例 如 提供 访问 共享 数据 库 的 服务 ( 见 6.4 节 )。 

操作 系统 包括 以 下 几 个 核心 组 件 : 
进程 管理 器 : 负责 进程 的 创建 和 操作 。 进 程 包括 一 个 地 址 空间 以 及 一 个 或 多 个 线程 ， 是 资源 
管理 的 基本 单位 。 

线程 管理 器 : 负责 线程 创建 、 同 步 和 调度 。 线 程 是 与 进程 相关 的 调度 活动 ， 这 将 在 6.4 节 详细 
描述 。 
通信 管理 器 : 负责 同一 台 计 算 机 上 不 同 进程 中 的 线程 之 间 的 通信 。 一 些 内 核 也 支持 远程 进程 
的 线程 之 间 的 通信 。 另 外 一 些 内 核 不 能 访问 其 他 计算 机 ， 它 们 需要 附加 的 服务 来 进行 外 部 通信 。 
6.5 节 将 讨论 通信 的 设计 。 

内 存 管理 器 : 负责 管理 物理 内 存 和 虚拟 内 存 。6.4 和 6.5 节 将 介绍 利用 内 存 管理 技术 来 实现 高 效 
的 数据 拷贝 和 数据 共享 。 

管理 器 : 负责 处 理 中 断 、 系 统 调用 陷阱 和 其 他 异常 ， 同 时 控制 内 存 管理 单元 和 硬件 缓存 以 及 
处 理 器 和 浮 点 寄存 器 操作 。 这 就 是 Windows 中 的 硬件 抽象 层 。 读 者 可 以 在 Bacon[2002] 和 
Tanenbaum[2001] 中 找到 内 核 中 依赖 计算 机 的 那 一 部 分 的 详细 描述 。 


.6.3 保护 
上 文 曾经 提 到 需要 保护 资源 以 防止 非法 访问 。 值 得 注意 的 是 ， 对 系统 完整 性 的 威胁 不 仅仅 来 



















源 于 恶意 编制 的 程序 代码 ， 非 恶意 编制 的 代码 也 有 可 能 因为 存在 某 些 错误 或 具有 未 曾 预料 的 行为 
而 导致 系统 工作 异常 。 

为 了 使 读者 了 解 什么 叫 对 资源 的 “非法 访问 ” ， 下 面 将 以 文件 为 例子 进行 讨论 。 假 设 对 打开 的 
文件 只 有 两 种 操作 一 一 read 和 write， 那 么 对 文件 的 保护 就 包括 两 个 子 问题 。 首 先 ， 系 统 需 要 保证 客 
户 必 须 有 相应 的 权限 才能 对 文件 执行 这 两 种 操作 。 例 如 ， 史 密斯 是 文件 的 拥有 者 ， 他 就 有 对 文件 的 
read 权 限 和 write 权限 ， 而 琼斯 只 能 对 此 文件 执行 read 操 作 。 当 琼斯 试图 对 文件 进行 write 操作 时 ， 这 
便 是 一 个 非法 访问 。 完 全 解决 分 布 式 系统 的 资源 保护 子 问题 需要 运用 密码 技术 ， 本 书 的 第 7 章 将 对 
此 进行 介绍 。 

另外 一 种 非法 访问 是 客户 错误 地 执行 了 资源 不 能 提供 的 操作 。 例 如 ， 在 上 面 的 例子 中 ， 当 史 
密斯 或 琼斯 试图 执行 一 个 既 不 是 read 也 不 是 write 的 操作 就 会 产生 这 种 非法 访问 。 假 设 当 史 密斯 设法 
直接 访问 文件 指针 变量 时 ， 他 可 以 构造 一 个 setFilePointerRandomly 的 操作 ， 这 一 操作 将 文件 指针 
设置 为 一 个 随机 值 。 当 然 ， 这 是 一 个 没有 实际 意义 的 操作 ， 并 且 它 可 能 扰乱 对 文件 的 正常 使 用 ， 
因此 ， 系 统 不 应 该 设计 这 样 一 个 文件 操作 。 

我 们 应 该 能 保护 资源 来 防止 像 setFilePointerRandomly 这 样 的 非法 调用 。 一 种 方法 是 使 用 类 型 
安全 的 编程 语言 ， 例 如 Java 或 Modula-3。 在 类 型 安全 的 语言 中 ， 一 个 模块 只 能 访问 它 所 引用 的 目标 
模块 ， 而 不 能 像 C 或 C++ 那样 通过 指针 来 访问 一 个 模块 ， 并 且 它 只 能 用 其 对 目标 模块 的 引用 来 执行 
提供 的 可 用 调用 (方法 调用 或 过 程 调用 ) 。 换 句 话 说 ， 它 不 能 任意 改变 目标 模块 的 变量 。 相 反 ， 
C++ 程序 员 可 以 把 指针 转换 成 任意 类 型 ， 从 而 执行 非 类 型 安全 的 调用 。 

我 们 也 可 以 使 用 硬件 来 保护 模块 以 防止 其 他 模块 的 非法 调用 ， 而 不 用 考虑 调用 模块 是 用 什么 
样 的 语言 写成 的 。 如 果 要 在 通用 的 计算 机 上 实现 这 种 保护 机 制 ， 就 需要 有 相应 的 系统 内 核 支持 。 

内 核 和 保护 ”内核 不 同 于 其 他 计算 机 程序 ， 它 的 特点 是 一 直 保持 运行 并 且 对 其 主机 的 物理 资源 
有 完全 的 访问 权限 。 特 别 是 ， 它 可 以 控制 内 存 管理 单元 并 设置 处 理 器 的 寄存 器 ， 这 就 使 得 其 他 程 
序 必须 通过 内 核 允许 的 方式 来 访问 机 器 的 物理 资源 。 

大 多 数 处 理 器 都 有 硬件 模式 的 寄存 器 ， 它 们 的 设置 决定 了 特权 指令 能 否 被 执行 。 例 如 有 些 寄 
存 器 的 值 可 以 决定 内 存 管理 单元 当前 采用 哪 一 个 保护 表 。 当 内 核 进程 执行 时 ， 处 理 器 处 于 管理 
(特权 ) 模式 ， 而 内 核 安 排 其 他 进程 在 用 户 (非特 权 ) 模式 下 运行 。 

内 核 也 通过 建立 地 址 空间 来 保护 自己 和 其 他 进程 以 防止 异常 进程 的 访问 ， 同 时 也 为 正常 进程 
提供 它们 所 需要 的 虚拟 内 存 。 一 个 地 址 空间 是 若干 虚拟 内 存 区 域 的 集合 ， 其 中 每 一 个 区 域 都 被 赋 
予 特定 的 访问 权限 ， 例 如 只 读 或 读 写 权限 。 进 程 不 能 访问 自己 地 址 空间 以 外 的 内 存 空间 。 术 语 用 
户 进程 或 用 户 级 进程 表示 在 用 户 模式 下 执行 并 且 拥 有 用 户 级 地 址 空间 的 进程 (相对 于 内 核 ， 这 些 
进程 有 受 限 的 内 存 访问 权限 ) 。 

当 一 个 进程 执行 应 用 程序 代码 时 ， 它 在 用 户 级 地 址 空间 中 执行 ， 而 当 这 一 进程 执行 内 核 代码 
时 ， 它 在 内 核 地 址 空间 内 执行 。 通 过 中 断 和 系统 调用 陷阱 (一 种 由 内 核 管理 的 资源 调用 机 制 ) ， 这 
一 进程 可 以 安全 地 在 用 户 级 地 址 空间 和 内 核 地 址 空间 中 转换 。 系 统 调用 陷阱 由 一 个 机 器 级 的 TRAP 
指令 实现 ， 它 将 处 理 器 转换 为 管理 模式 并 将 地 址 空间 切换 到 内 核 地 址 空间 。 当 TRAP 指 令 (具有 某 
种 异常 ) 执行 时 ， 计 算 机 硬件 强制 处 理 器 执行 内 核 提供 的 处 理 函 数 ， 以 保证 没有 其 他 进程 获得 对 
硬件 的 控制 。 _ 

保护 机 制 使 系统 在 执行 程序 时 会 产生 额外 的 开销 。 在 地 址 空间 之 闻 切 换 会 占用 处 理 器 的 许多 
处 理 周 期 ， 并 且 系 统 调用 陷阱 也 要 比 简单 的 过 程 调用 或 方法 调用 耗费 更 多 的 处 理 器 资源 。 我 们 将 
会 了 解 到 这 些 不 利 因素 是 如 何 影响 调用 开销 的 。 


6.4 进程 和 线程 
在 传统 的 操作 系统 概念 中 ， 进 程 只 能 执行 一 个 活动 。 到 20 世 纪 80 年 代 ， 人 们 发 现 这 一 特性 不 


ee 
能 满足 分 布 式 系 统 的 要 求 ， 也 不 能 胜任 那些 需要 内 部 并 发 的 复杂 的 单机 应 用 。 主 要 问题 是 在 传统 
的 进程 中 实现 相关 活动 之 间 的 共享 是 很 困难 的 ， 而 且 代价 也 很 大 。 

对 此 问题 的 解决 方法 是 完善 进程 的 概念 使 它 能 与 多 个 活动 联系 起 来 。 现 在 ， 一 个 进程 是 由 一 
个 执行 环境 和 一 个 或 多 个 线程 组 成 的 。 一 个 线程 是 一 个 活动 的 操作 系统 抽象 (这 一 术语 来 源 于 术 
语 “ 执 行 线 ”)。 执 行 环境 是 资源 管理 的 基本 单位 ， 它 是 一 个 进程 的 线程 所 能 访问 的 由 本 地 内 核 管 
理 的 资源 集 。 一 个 执行 环境 主要 包括 : 

。 一 个 地 址 空间 。 

。 线 程 同步 和 通信 资源 ， 如 信号 量 和 通信 接口 〈 例 如 套 接 字 ) 。 

。 高 级 资源 ， 如 打开 的 文件 和 窗口 。 

创建 和 管理 执行 环境 在 通常 情况 下 代价 很 高 ， 而 多 个 线程 可 以 共享 执行 环境 。 也 就 是 说 ， 它 
们 可 以 共享 执行 环境 中 的 所 有 可 用 资源 。 换 句 话说， 一 个 执行 环境 可 以 表示 为 运行 于 其 中 的 线程 
的 保护 域 。 

线程 可 以 动态 地 创建 和 销毁 。 多 线程 执行 的 主要 目的 是 尽 可 能 增加 操作 间 并 发 执行 程度 ， 这 样 可 
以 将 计算 和 输入 输出 同时 执行 ， 同 时 也 可 以 支持 在 多 处 理 器 上 的 并 发 执行 。 多 线程 执行 对 服务 器 端 运 
行 的 程序 特别 有 用 ， 因 为 处 理 多 个 并 发 的 客户 请 求 会 降低 服务 器 的 执行 速度 ， 使 其 成 为 瓶颈 。 例 如 ， 
一 个 线程 可 以 处 理 一 个 客户 的 请 求 ， 而 同时 为 另 一 个 客户 请 求 服务 的 线程 要 等 待 磁盘 访问 的 完成 。 

执行 环境 可 以 保护 其 内 部 的 资源 不 被 外 部 线程 访问 ， 这 样 执行 环境 内 的 数据 和 其 他 资源 在 默 
认 情 况 下 是 不 能 被 其 他 执行 环境 中 的 线程 访问 的 。 但 是 ， 某 些 内 核 允许 有 条 件 地 共享 资源 ， 例 如 
同一 计算 机 上 不 同 执行 环境 的 物理 内 存 。 

因为 许多 老式 的 操作 系统 在 一 个 进程 上 只 允许 运行 一 个 线程 ， 所 以 我 们 使 用 术语 多 线程 进程 
来 强调 这 一 区 别 。 容 易 引 起 混淆 的 是 ， 在 一 些 编程 模型 和 操作 系统 中 ， 术 语 “进程 ”实际 是 指 我 
们 这 里 所 说 的 线程 。 读 者 也 可 能 在 其 他 文献 中 遇 到 过 术语 重量 级 进程 ， 其 中 就 包含 了 它 的 执行 环 
境 ， 而 轻 量 级 进程 则 不 包含 执行 环境 。 下 面 将 用 一 个 比喻 说 明 线 程 和 其 执行 环境 。 


线程 和 进程 的 比喻 “下面 是 一 个 在 comp.os.mach USENET 组 上 由 Chris Lloyd 描述 的 关于 
线程 和 执行 环境 的 有 趣 比 喻 。 一 个 执行 环境 是 一 个 装 有 空气 和 食物 且 封 了 口 的 瓶子 。 开 始 ， 瓶 
子 中 只 有 一 个 苍蝇 一 一 线程 。 这 个 苍蝇 可 以 生出 其 他 苍蝇 ， 也 可 以 杀 死 它 生 出 的 这 些 苍蝇 ， 它 
的 后 代 也 能 这 样 做 。 苍 蝇 会 消耗 瓶子 内 的 资源 (空气 和 食物 )。 但 它们 必须 有 顺序 的 消耗 资源 。 


如 果 它 们 不 遵守 这 一 原则 ， 它 们 会 在 瓶子 中 撞 在 一 起 。 也 就 是 说 ， 当 它们 以 一 种 没有 约束 的 方 
式 试图 消耗 同一 资源 时 会 产生 冲突 ， 从 而 产生 无 法 预料 的 结果 。 苍 蝇 能 (通过 发 送 消 息 ) 与 瓶 
子 中 的 其 他 苍蝇 通信 , 但 是 它们 都 不 能 飞 出 这 个 瓶子 ,外 面 的 苍蝇 也 不 能 飞 进来 。 按 这 种 观点 ， 
一 个 标准 的 UNIX 进 程 是 一 个 瓶子 ， 且 瓶子 中 只 有 一 只 不 能 生出 其 他 苍蝇 的 苍蝇 。 





6.4.1 地 址 空间 


前 面 已 经 介绍 过 ， 地 址 空间 是 一 个 进程 的 虚拟 内 存 的 管理 单元 。 它 可 以 
很 大 (通常 可 达到 2” 字 节 ， 有 时 可 达到 2“ 字 节 )， 同 时 可 以 拥有 多 个 区 域 ， 这 
些 区 域 被 不 可 访问 的 虚拟 内 存 区 隔 开 。 一 个 区 域 (图 6-3) 是 一 个 可 以 被 本 进 
程 的 线程 访问 的 连续 的 虚拟 内 存 区 。 区 域 间 不 能 重合。 我 们 要 注意 区 分 区 域 
和 它们 的 内 容 。 每 一 个 区 域 包括 如 下 性 质 : 

。 范 围 (最 低 的 虚拟 内 存 地 址 和 区 域 大 小 )。 

* 对 本 进程 的 线程 的 读 / 写 /执行 权限 。 

* 是否 能 够 向 上 或 向 下 扩展 。 

注意 ， 这 个 模型 是 基于 页 面 的 而 不 是 基于 段 的 。 与 段 不 同 的 是 ， 当 区 域 。 图 6-3 地 址 空间 
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扩展 时 ， 它 们 最 终 会 重 叙 。 区 域 之 间 留 有 空 阶 ， 用 于 区 域 增长 。 可 以 将 UNIX 地 址 空间 概括 为 由 若 
干 不 相交 区 域 组 成 的 地 址 空间 ， 它 包含 3 个 区 域 : 一 个 固定 的 包含 程序 代码 的 不 可 更 改 的 正文 区 
域 ， 一 个 堆 ， 其 中 一 部 分 可 以 由 存储 在 程序 的 二 进 制 文件 中 的 值 初始 化 ， 并 且 这 个 区 域 可 以 向 更 
高 的 虚拟 地 址 空间 扩展 ， 一 个 栈 ， 它 能 向 更 低 的 虚拟 地 址 空间 术 展 。 

有 儿 个 因素 影响 了 应 提供 的 区 域 数 和 目 。 其 中 之 一 是 系统 需要 为 每 一 个 线程 提供 一 个 独立 的 栈 。 
通过 给 每 一 个 栈 分 配 一 个 区 域 ， 系 统 就 能 检测 栈 的 溢出 并 控制 栈 的 增长 。 试 图 访问 在 这 些 栈 之 外 
的 没有 被 分 配 的 虚拟 内 存 将 会 引起 异常 (页 失 配 )。 另 一 种 方法 是 将 栈 放 在 堆 的 上 方 ， 但 是 这 样 会 
使 系统 难于 检测 栈 的 溢出 。 

另 一 个 因素 是 它 能 将 所 有 的 文件 一 一 而 不 仅仅 是 二 进 制 文件 的 正文 和 数据 区 一 一 映射 到 地 址 空 
间 。 映 射 文件 是 一 个 在 内 存 中 可 访问 的 字 节 数组 。 虚 拟 内 存 系统 确保 对 内 存 的 访问 反映 到 底层 的 
文件 存储 上 。Section CDK3-18.6 (www.cdk4.net/oss/mach) 描述 了 Mach 内 核 是 如 何 扩展 虚拟 内 存 
的 ， 以 便 使 区 域 对 应 于 任意 的 “内 存 对 象 ”而 不 仅仅 是 文件 的 。 

在 进程 之 间或 在 进程 与 内 核 之 间 共 享 内 存 的 需求 是 产生 地 址 空间 中 额外 区 域 的 另 一 个 原因 。 
共享 内 存 区 域 (或 简称 为 共享 区 域 ) 是 同一 片 物 理 内 存 区 域 ， 并 可 以 作为 其 他 地 址 空间 的 一 片 或 
多 片 内 存 区 域 。 因 此 ， 进 程 通过 访问 这 些 共享 内 存 区 域 可 以 获得 一 致 的 内 存 内 容 ， 而 它们 非 共 享 
的 区 域 仍然 是 受到 保护 的 。 共 享 区 的 应 用 包括 如 下 几 个 方面 : 

库 : 库 的 代码 可 以 很 大 ， 因 此 如 果 每 一 个 使 用 它 的 进程 都 需要 独立 地 装载 这 个 库 ， 那 么 就 会 
占用 相当 大 的 肉 存 。 相 反 ， 可 以 将 库 代 码 的 一 个 拷贝 映射 到 需要 它 的 多 个 进程 的 共享 内 存 区 中 ， 
以 达到 共享 的 目的 。 

内 核 : 通常 ， 内 核 代码 和 数据 会 被 映射 到 每 一 个 地 址 空间 中 的 相同 位 置 。 这 样 ， 当 进程 进行 
系统 调用 或 出 现 异常 时 ， 系 统 不 需要 切换 到 新 的 地 址 空间 映射 。 

数据 共享 和 通信 : 两 个 进程 之 间或 进程 和 内 核 之 间 可 能 需要 共享 数据 以 达到 协同 工作 的 目的 。 
将 共享 数据 映射 到 相应 的 两 个 地 址 空间 中 的 特定 区 域 比 将 共享 数据 放 在 消息 中 传递 的 效率 更 高 。 
6.5 节 将 介绍 如 何 将 区 域 共 享用 于 通信 。 


6.4.2 新 进程 的 生成 


一 般 而 言 ， 新 进程 的 创建 是 由 操作 系统 提供 的 一 个 原子 操作 。 例 如 ，UNIX 的 fork 系 统 调用 创 
建 一 个 新 的 进程 ， 它 的 执行 环境 是 从 其 调用 进程 拷贝 得 来 的 (除了 fork 的 返回 值 )。UNIX 的 exec 系 
统 调 用 将 调用 进程 转换 为 执行 一 个 指定 名 字 程 序 代 码 的 进程 。 

在 分 布 式 系统 中 ， 设 计 进程 创建 机 制 时 必须 考虑 到 多 个 计算 机 的 使 用 。 因 此 ， 支 持 进程 的 基 
础 设施 被 划分 为 几 个 独立 的 系统 服务 。 

在 分 布 式 系统 中 ， 新 进程 的 创建 过 程 可 以 被 划分 为 两 个 独立 的 阶段 ， 

* 选择 目标 主机 。 例 如 ， 系 统 可 以 在 作为 服务 器 的 计算 机 集群 中 选择 一 个 节点 作为 进程 的 主机 

( 见 下 面 的 介绍 )。 

* 创建 执行 环境 (和 一 个 初始 线程 )。 

进程 主机 的 选择 选择 新 进程 驻 留 的 节点 (进程 分 配 决 定 ) 是 一 个 策略 问题 。 一 般 情况 下 ， 进 
程 分 配 策略 包括 从 总 是 在 产生 进程 的 主机 上 运行 新 进程 到 在 多 个 计算 机 上 共同 分 担 处 理 负载 等 一 
系列 策略 。Eager 等 人 [1986] 给 出 了 一 个 负载 共享 策略 的 分 类 。 


集群 ”集群 是 由 速度 可 达 Gbps 的 交换 以 太 网 这 样 的 高 速 通信 网 连接 起 来 的 计算 机 集合 (有 
_ 时 达到 上 千 台 )。 其 中 的 计算 机 可 以 是 标准 PC 机 或 工作 站 ， 也 可 以 是 由 插 有 多 个 PC 处 理 器 的 
主板 组 成 的 计算 机 ， 它 们 可 以 是 单 处 理 器 也 可 以 是 多 处 理 器 。 集 群 可 以 提供 高 可 用 性 和 高 可 什 
缩 性 的 服务 ， 例 如 在 因特网 上 为 用 户 提 供 的 搜索 引擎 ， 而 这 是 通过 在 集群 的 处 理 器 之 间 复 制 或 
分 解 处 理 和 服务 器 的 状态 来 实现 的 [Fox et al. 1997]。 集 群 也 可 以 用 来 运行 并 行程 序 [Anderson 
et.al. 1995, now.cs.berkeley.edu, TFCC], 
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转移 策略 决定 是 使 新 进程 在 本 机 运行 还 是 在 其 他 机 器 上 运行 ， 而 这 取决 于 本 机 节点 的 负载 是 
轻 还 是 重 。 

定位 策略 决定 选择 哪 一 个 节点 来 驻 留 被 转移 的 新 进程 ， 这 取决 于 节点 的 相对 负载 情况 、 机 器 的 
体系 结构 和 它 是 否 拥有 某 些 特殊 资源 。V 系统 [Cheriton 1984] 和 Sprite 系 统 [Douglis and Ousterhout 
1991] 都 为 用 户 提 供 了 相应 的 命令 ， 可 以 在 操作 系统 选择 的 当前 空闲 的 工作 站 (在 任意 时 刻 ， 通 常 
会 有 很 多 这 样 的 机 器 ) 上 执行 一 个 程序 。 在 Amoeba 系 统 [Tanenbaum et al. 1990] 中 ， 运 行 服务 器 从 
一 个 共享 处 理 器 池 中 为 每 个 进程 选择 一 个 处 理 器 作为 主机 。 在 上 面 的 例子 中 ， 如 何 选择 目标 主机 对 
程序 员 和 用 户 来 说 是 透明 的 。 然 而 ， 对 那些 并 行程 序 或 容错 程序 编程 可 能 需要 指定 的 进程 定位 。 

进程 定位 策略 有 两 类 一 一 静态 的 或 适应 性 的 。 前 者 不 考虑 系统 的 当前 状态 ， 尽 管 它们 是 根据 系 
统 的 长 期 特点 设计 的 。 它 们 是 基于 数学 分 析 的 ， 其 目的 是 优化 像 处 理 器 吞吐 量 这 样 的 系统 参数 。 
它们 可 能 是 确定 性 的 (“节点 A 总 是 将 进程 转移 给 节点 B”) 也 可 能 是 非 确定 性 的 〈“ 节 点 A 应 该 将 进 
程 随机 转移 给 节点 B ~E 之 间 的 任何 节点 ”)。 另 一 方面 ， 适 应 性 策略 根据 不 确定 的 运行 时 因素 ( 例 
如 ， 每 个 节点 的 负载 ) 采取 启发 式 方法 来 做 出 进程 分 配 决 定 。 

负载 共享 系统 可 能 是 中 心 化 的 、 层 次 化 的 或 分 散 化 的 。 中 心 化 的 系统 有 一 个 负载 管理 器 组 件 ， 
而 层次 化 的 系统 中 有 多 个 这 样 的 组 件 并 组 织 成 树 形 结 构 。 负 载 管理 器 负责 收集 节点 的 信息 并 根据 
这 些 信息 将 新 进程 分 配 到 节点 上 。 在 层次 化 系统 中 ， 负 载 管理 器 尽 可 能 将 分 配 进 程 的 决定 权 交 给 
它 的 树 形 结构 中 的 底层 节点 上 ， 但 是 管理 器 在 某 些 负载 条 件 下 也 可 以 通过 与 其 他 管理 器 的 公共 祖 
先 节点 将 进程 转移 到 其 他 节点 上 。 在 分 散 化 的 负载 共享 系统 中 ， 节 点 之 间 为 制定 进程 分 配 决策 可 
直接 交换 信息 。 例 如 ，Spawn 系 统 [Waldspurger et al. 1992] 将 节点 看 作 计 算 资 源 的 “购买 者 ”和 
“销售 者 ”， 并 用 《分 散 化 的 ) “市场 经 济 ”来 管理 它们 。 

在 发 送 方 启动 的 负载 共享 算法 中 ， 需 要 创建 一 个 新 进程 的 节点 负责 启动 转移 决策 。 如 果 它 的 
负载 超过 了 某 一 益 值 ， 它 就 会 启动 一 个 转移 过 程 。 相 反 ， 在 接收 方 启动 的 负载 共享 算法 中 ， 节 点 
在 自己 的 负载 低 于 某 一 阔 值 时 建议 其 他 节点 将 工作 转移 给 自己 。 

可 迁移 的 负载 共享 系统 可 以 在 任 一 时 间 转 移 负载 ， 而 不 仅 限于 在 创建 一 个 新 进程 时 转移 负载 。 
它们 使 用 一 种 称 为 “进程 迁移 ”的 机 制 ， 将 一 个 正在 执行 的 进程 从 一 个 节点 转移 到 另 一 个 节点 。 
Milojicic 等 人 [1999] 通过 一 系列 论文 详细 描述 了 进程 迁移 和 其 他 类 型 的 移动 。 尽 管 现在 已 经 构建 出 
一 些 进程 迁移 机 制 ， 但 它们 并 没有 得 到 广泛 应 用 ， 其 中 一 个 主要 的 原因 是 它们 的 代价 高 晶 ， 而 且 
为 了 将 进程 转移 到 其 他 的 节点 上 ， 系 统 需 要 从 内 核 中 提取 出 进程 运行 的 当前 状态 ， 而 实现 这 种 操 
作 是 相当 困难 的 。 

Eager 等 人 [1986] 考 察 了 三 种 负载 共享 的 方法 ， 从 而 总 结 出 ; 在 任何 负载 共享 机 制 中 ， 简 单 性 
是 一 个 很 重要 的 性 质 。 这 是 因为 高 额 的 开销 (例如 状态 收集 开销 ) 可 能 会 抵消 其 带 来 的 好 处 。 

创建 新 的 执行 环境 一 旦 选 定 了 主机 ， 新 进程 需要 一 个 包含 地 址 空间 和 初始 化 信息 (可 能 还 包 
含 其 他 资源 ， 如 默认 打开 的 文件 ) 的 执行 环境 。 

有 两 种 方法 可 以 为 新 创建 的 进程 定义 和 初始 化 地 址 空间 。 当地 址 空间 是 一 个 静态 定义 的 格式 
时 采用 第 一 种 方法 。 例 如 ， 地 址 空间 可 能 只 包含 一 个 程序 正文 区 域 、 一 个 堆 和 一 个 栈 。 在 这 种 情 
况 下 ， 地 址 空间 区 域 可 根据 指定 了 地 址 空间 区 域 范围 的 列表 来 创建 ， 然 后 地 址 空间 区 域 由 一 个 可 
执行 文件 进行 初始 化 或 者 用 零 填 满 。 

第 二 种 方法 是 根据 一 个 已 存在 的 执行 环境 来 定义 地 址 空间 。 例 如， 在 UNIX fork 操 作 的 语义 中 ， 
新 创建 的 子 进程 共享 其 父 进程 的 正文 区 域 ， 同 时 ， 它 的 堆 和 栈 (以 及 初始 内 容 ) 在 某 种 程度 上 是 
父 进 程 的 拷贝 。 这 个 机 制 可 以 加 以 推广 使 子 进程 继承 (或 忽略 ) 父 进 程 的 地 址 空间 中 的 每 一 个 区 
域 ， 被 继承 的 区 域 可 以 共享 父 进程 的 区 域 ， 也 可 以 逻辑 地 拷贝 父 进程 的 区 域 。 当 父 进程 和 子 进程 
共享 一 片区 域 时 ， 属 于 父 进程 区 域 的 页 面 帧 (对 应 于 虚拟 内 存 页 面 的 物理 内 存单 元 ) 同 时 被 映射 
到 相应 的 子 区 域 中 。 
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例如 ，Mach[Accetta et al. 1986] 和 Chorus[Rozier et al. 1988，1990] 采 用 了 一 种 称 为 写 时 复制 
的 优化 机 制 来 对 父 进程 的 区 域 复 制 到 子 进程 区 域 的 过 程 进 行 优化 。 默 认 情 况 下 ， 区 域 被 复制 ， 但 
是 没有 进行 物理 拷贝 ， 组 成 继承 区 域 的 页 面 帧 被 两 个 地 址 空间 共享 。 只 有 当 其 中 的 一 个 进程 试图 
修改 内 存 区 的 页 面 内 容 时 ， 系 统 才 进行 物理 上 的 页 面 拷贝 。 

写 时 复制 是 一 种 通用 的 技术 ， 例 如 ， 它 也 用 于 拷贝 大 量 信息 。 下 面 将 介绍 它 的 操作 机 制 。 在 
图 6-4 中 ， 进 程 A 和 进程 B 分 别 拥 有 内 存 区 RA 和 RB ， 这 两 个 区 域 是 用 写 时 复制 机 制 共 享 的 。 更 明确 
地 说 ， 由 子 进 程 B 创 建 的 区 域 RB 是 通过 复制 继承 父 进程 A 的 区 域 RA 得 到 的 。 


进程 A 的 地 址 空间 进程 B 的 地 址 空间 





有 RB 由 RA 拷贝 得 来 RB 





图 6-4 写 时 复制 


为 简单 起 见 ， 假 设 区 域 A 中 的 页 面 都 在 内 存 中 。 初 始 情况 下 ， 区 域 中 的 所 有 页 面 帧 被 两 个 进程 
的 页 表 共 享 。 即 使 这 些 页 面 所 在 的 区 域 是 逻辑 上 可 写 的 ， 但 是 页 面 最 初 是 在 硬件 级 被 写 保护 的 。 
如 果 某 一 个 进程 的 线程 试图 修改 数据 ， 就 会 产生 一 个 称 为 页 失 配 的 硬件 异常 。 假 设 进程 B 试 图 写 内 
存 ， 页 失 配 处 理 程序 会 为 进程 B 分 配 一 个 新 的 帧 ， 并 将 原 帧 中 的 数据 以 字 节 为 单位 拷贝 到 这 个 新 的 
帧 中 。 同 时 ， 在 进程 B 的 页 表 中 的 那个 旧 的 帧 号 被 新 的 帧 号 所 代替 ， 而 在 进程 A 的 页 面 表 中 的 页 面 
帧 号 不 变 。 此 后 ， 进 程 A 和 进程 B 的 对 应 页 都 在 硬件 级 被 设 为 可 写 。 在 完成 了 以 上 操作 后 ， 进 程 B 
的 修改 指令 就 可 以 运行 了 。 


6.4.3 线程 


进程 的 另 一 个 重要 的 方面 是 它 的 线程 。 本 节 主 要 介绍 使 客户 和 服务 器 进程 拥有 多 个 线程 所 带 
来 的 好 处 ， 然 后 会 用 Java 线 程 作 例子 讨论 使 用 线程 编程 。 最 后 介绍 实现 线程 的 各 种 方式 。 

考虑 图 6-5 所 示 的 服务 器 ( 稍 后 将 介绍 客户 ) 。 服 务 器 拥有 一 个 包含 一 个 或 多 个 线程 的 线程 池 ， 
其 中 每 一 个 线程 反复 地 从 队列 中 取出 已 收 到 的 请 求 并 对 其 进行 处 理 。 本 节 暂 不 讨论 是 如 何 接收 请 
求 并 将 其 排队 以 等 待 线程 处 理 的 。 并 且 为 了 简单 起 见 ， 我 们 假设 每 一 个 线程 都 采用 同样 的 过 程 来 
处 理 请 求 。 假 设 每 一 个 请 求 平 均 占用 2ms 的 处 理 时 间 和 8ms 的 IO 延迟 ， 其 中 IO 延迟 是 由 于 服务 器 
从 磁盘 上 读 取信 息 造成 的 〈 假 设 此 系统 没有 缓存 ) 。 同 时 假设 服务 器 在 一 个 单 处 理 器 的 计算 机 上 
执行 。 

下 面 以 处 理 器 每 秒 处 理 的 客户 请 求 数 为 度量 ， 讨 论 不 同 数目 的 线程 运行 时 服务 器 的 最 大 吞吐 
量 。 如 果 只 有 一 个 线程 来 执行 所 有 的 处 理 ， 因 为 执行 一 个 请 求 平 均 需 要 2+8= 10ms， 那 么 服务 器 
在 1s 内 能 处 理 100 个 客户 请 求 。 当 服务 器 在 处 理 一 个 请 求 时 ， 任 何 新 到 达 的 请 求 将 在 服务 器 端口 上 
排队 。 
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图 6-5 拥有 线程 的 客户 和 服务 器 


现在 考虑 服务 器 的 线程 池 中 包含 两 个 线程 时 会 发 生 的 情况 。 假 设 每 个 线程 都 是 独立 调度 的 ， 
也 就 是 说 ， 当 一 个 线程 因为 IO 阻塞 时 ， 另 一 线程 仍 可 被 调度 。 这 样 当 第 一 个 线程 被 阻塞 的 时 候 ， 
第 二 个 线程 能 处 理 第 二 个 请 求 ， 反 之 亦 然 。 这 样 可 以 提高 服务 器 的 吞吐 量 。 遗 憾 的 是 ， 在 我 们 的 
例子 中 ， 线 程 会 被 单一 的 磁盘 存 取 阻 塞 。 如 果 所 有 的 磁盘 请 求 都 被 串 行 化 ， 且 每 一 个 请 求 用 8ms 来 
执行 ， 那 么 ， 服 务 器 最 大 的 吞吐 量 为 每 秒 处 理 1000/8 = 125 个 请 求 。 

现在 假设 系统 中 加 入 磁盘 缓存 。 服 务 器 将 它 读 到 的 数据 放 在 其 地 址 空间 的 缓冲 区 内 。 当 服务 
器 线程 检索 数据 时 ， 它 首先 在 共享 缓存 中 查找 数据 ， 如 果 数 据 存在 于 缓存 中 ， 就 不 需要 再 访问 磁 
盘 。 如 果 在 缓存 中 数据 的 平均 命中 率 为 75% ， 那 么 每 个 请 求 的 平均 IO 时 间 减 少 为 (0.75 x 0 十 0.25 
x8) =2ms， 于 是 理论 上 最 大 吞吐 量 将 达到 每 秒 处 理 500 个 请 求 。 但 如 果 由 于 缓存 的 原因 ， 每 个 请 
求 的 平均 处 理 时 间 增 加 到 2.5ms (在 每 次 操作 中 寻找 缓存 中 的 数据 需要 耗费 额外 的 时 间 ) ， 那 么 系 
统 将 无 法 达到 上 面 的 理想 情况 下 的 吞吐 量 。 这 时 ， 由 于 处 理 器 的 限制 ， 服 务 器 每 秒 只 能 处 理 
1000/2.5= 400 个 请 求 。 

如 果 采 用 共享 内 存 的 多 处 理 器 来 缓解 处 理 器 的 瓶颈 ， 则 系统 的 吞吐 量 会 提高 。 多 线程 的 进程 
可 以 自然 地 映射 到 共享 内 存 的 多 处 理 器 上 。 其 共享 的 执行 环境 可 以 在 共享 内 存 中 实现 ， 并 且 多 个 
线程 可 以 在 多 个 处 理 器 上 运行 。 假 设 服务 器 在 有 两 个 处 理 器 的 多 处 理 机 上 执行 ， 线 程 可 以 在 不 同 
的 处 理 器 上 单独 被 调度 ， 那 么 最 多 有 两 个 线程 可 以 并 行 地 处 理 请 求 。 由 此 可 以 计算 出 : 两 个 线程 
每 秒 可 以 处 理 444 个 请 求 ， 而 使 用 三 个 或 更 多 的 线程 ， 因 为 受 输入 输出 时 间 的 限制 ， 每 秒 可 以 处 理 
500 个 请 求 。 , 

多 线程 服务 器 的 体系 结构 上 文 已 经 介绍 了 多 线程 体系 结构 是 如 何 增加 服务 器 的 吞吐 量 , 其中， 
吞吐 量 是 用 每 秒 处 理 的 请 求 数 度量 的 。 为 了 描述 在 服务 器 内 将 请 求 分 配给 线程 的 不 同方 式 ， 我 们 
引用 了 Schmidt[1998] 总 结 的 结果 ， 他 描述 了 CORBA 的 对 象 请 求 代理 (ORB) 的 多 种 实现 的 线程 体 
系 结构 。ORB 处 理 一 组 套 接 字 上 到 达 的 请 求 。 不 管 系统 是 否 使 用 CORBA， 其 线程 体系 结构 与 多 种 
类 型 的 服务 器 相关 。 

图 6-5 给 出 了 一 种 可 能 的 线程 体系 结构 ， 即 工作 池 体 系 结构 。 它 的 最 简单 的 形式 是 由 服务 器 创 
建 一 个 固定 的 “工作 ”线程 池 以 便 在 启动 时 处 理 请 求 。 在 图 6-5 中 “接收 并 排队 ”模块 通常 由 一 个 
1/0 线 程 实现 ， 该 线程 从 一 组 套 接 字 或 端口 中 接收 请 求 ， 并 将 它们 放 在 共享 的 请 求 队列 上 以 便 工作 
线程 检索 。 

有 时 候 ， 系 统 需要 按 不 同 的 优先 级 处 理 请 求 。 例 如 ， 一 个 公司 的 Web 服 务 器 可 以 根据 产生 请 
求 的 用 户 类 别 来 优先 处 理 某 些 请 求 [Bhatti and Friedrich 1999]。 我 们 可 以 在 工作 池 体 系 结构 中 引入 
多 个 请 求 队列 来 处 理 不 同 的 请 求 优先 级 这样， 工作 线程 能 按 优先 级 降序 扫描 这 些 队 列 。 这 种 体 
系 结构 的 一 个 缺点 是 缺乏 灵活 性 。 在 上 文 提出 的 例子 中 ， 如 果 池 中 的 工作 线程 数量 太 少 ， 则 不 能 


及 时 处 理 每 一 个 用 户 请 求 。 它 的 另 一 个 缺点 是 当 其 操纵 共享 请 求 队列 时 ， 系 统 可 能 频繁 地 在 IO 和 
工作 线程 中 切换 。 
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在 一 请 求 一 线程 体系 结构 ( 见 图 6-6a) 中 ，LIO 线 程 为 每 一 个 请 求 派生 一 个 新 的 工作 线程 ， 并 
且 当 工作 线程 处 理 完 此 请 求 时 ， 它 会 销毁 自己 。 这 种 体系 结构 的 一 个 优点 是 线程 不 会 竞争 共享 队 
列 ， 并 且 香 吐 量 被 提高 到 最 大 限度 ， 这 是 因为 对 每 一 个 未 处 理 的 请 求 ，IO 线 程 都 会 产生 一 个 线程 
来 处 理 它 。 它 的 缺点 在 于 创建 和 销毁 线程 所 带 来 的 开销 很 大 。 

一 连接 一 线程 体系 结构 ( 见 图 6-6b) 为 每 个 连接 分 配 一 个 线程 。 服 务 器 在 每 个 客户 建立 连接 
时 创建 一 个 新 的 工作 线程 ， 并 在 连接 关闭 时 销毁 该 工作 线程 。 在 这 一 过 程 中 ， 客 户 在 此 连接 上 可 
发 送 多 个 请 求 ， 并 可 以 访问 一 个 或 多 个 远程 对 象 。 一 对 象 一 线程 体系 结构 ( 见 图 6-6c) 将 每 个 远程 
对 象 分 别 与 一 个 线程 相连 ， 有 一 个 IO 线程 接收 请 求 并 将 其 放 和 队列 等 待 工作 线程 的 处 理 ， 此 时 每 
一 个 对 象 有 一 个 请 求 队列 。 
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图 6-6 几 种 服务 器 线程 体系 结构 (参见 图 6-5) 


相对 于 一 请 求 一 线程 的 体系 结构 而 言 ， 在 后 两 种 体系 结构 中 ， 服 务 器 可 以 从 降低 的 线程 管理 
的 开销 中 获 益 。 这 两 种 体系 结构 的 缺点 是 当 一 个 工作 线程 有 多 个 请 求 等 待 处 理 时 ， 其 客户 的 请 求 
会 被 延迟 ， 而 同时 可 能 有 其 他 线程 处 于 空闲 状态 。 

Schmidt[1998] 描 述 了 这 些 体系 结构 的 衍生 形式 以 及 它们 的 一 些 混 合 类 型 ， 并 详细 讨论 了 它们 
各 自 的 优点 和 缺点 。6.5 节 将 描述 在 单机 调用 环境 中 的 线程 模型 ， 在 该 模型 中 客户 线程 可 以 访问 服 
务 器 的 地 址 空间 。 

客户 线程 ”线程 也 可 以 应 用 于 客户 ， 就 像 它 应 用 于 服务 器 一 样 。 图 6-5 也 描述 了 一 个 包含 两 个 
线程 的 客户 进程 。 第 一 个 线程 生成 的 结果 通过 远程 方法 调用 传递 到 服务 器 ， 但 线程 不 需要 得 到 响 
应 。 然 而 ， 即 使 调用 者 不 需要 返回 结果 ， 远 程 方法 调用 也 会 阻塞 调用 者 。 客 户 进程 包含 的 第 二 个 
线程 可 以 执行 远程 方法 调用 并 且 被 阻塞 ， 而 此 时 第 一 个 线程 可 以 继续 进行 计算 工作 。 第 一 个 线程 
将 结果 放 在 缓冲 内 ， 而 第 二 个 线程 从 缓冲 区 内 取出 结果 。 只 有 在 所 有 缓冲 区 满 了 以 后 ， 第 一 个 线 
程 才 被 阻塞 。 

Web 浏 览 器 就 是 采用 多 线程 的 客户 结构 的 例子 。 用 户 在 获取 网 页 时 经 常会 经 历 延 迟 ， 因 此 浏 
览 器 必须 能 处 理 多 个 同时 到 达 的 获取 网 页 的 请 求 。 


线程 与 多 进程 ”从 上 面 的 例子 中 可 以 了 解 到 ， 线 程 的 使 用 允许 计算 与 JO 操 作 同时 进行 ， 在 多 


处 理 器 的 情况 下 ， 还 可 以 人 允许 多 个 计算 任务 同时 进行 。 读 者 可 能 注意 到 ， 使 用 多 个 单线 程 的 进程 
也 可 能 达到 同样 的 并 行 执行 的 结果 。 那 么 ， 为 什么 要 使 用 多 线程 进程 模型 呢 ? 其 原因 包括 两 方面 
线程 的 创建 和 管理 开销 比 进程 少 ， 同 时 ， 因 为 线程 共享 一 个 执行 环境 ， 线 程 之 间 比 进程 之 间 更 容 
易 共 享 资源 。 

图 6-7 给 出 了 执行 环境 和 线程 要 维护 的 几 种 主要 的 状态 组 件 。 一 个 执行 环境 拥有 一 个 地 址 空间 、 
像 套 接 字 这 样 的 通信 接口 、 像 打开 的 文件 这 样 的 高 级 资源 以 及 像 信 号 量 这 样 的 线程 同步 对 象 。 表 
中 也 列 出 了 与 之 相关 的 线程 。 线 程 拥有 一 个 调度 优先 级 、 一 个 执行 状态 (例如 BLOCKED 或 
RUNNABLE)、 当 线程 阻塞 时 存储 处 理 器 的 寄存 器 值 和 与 线程 的 软 中 断 处 理 有 关 的 状态 。 一 个 软 
中 断 是 一 个 导致 线程 中 断 (类 似 于 硬件 中 断 ) 的 事件 。 如 果 线 程 被 加 载 一 个 处 理 程序 ， 它 就 获得 
了 系统 控制 权 。UNIX 的 信号 便 是 软 中 断 的 一 个 例子 。 
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图 6-7 与 执行 环境 和 线程 相关 的 状态 


图 6-7 显 示 了 执行 环境 和 其 线程 都 与 驻 留 在 内 存 中 的 地 址 空间 的 页 面 以 及 在 硬件 缓存 中 的 数据 
和 指令 相关 。 

下 面 我 们 将 对 进程 和 线程 的 比较 总 结 如 下 ; 

。 在 一 个 已 有 进程 内 创建 一 个 线程 比 创建 一 个 进程 开销 小 。 

。 更 重要 的 是 ， 在 一 个 进程 的 不 同 线程 之 间 切 换 比 在 不 同 进程 的 线程 之 间 切 换 的 开销 小 。 

。 一 个 进程 内 的 线程 共享 数据 和 其 他 资源 比 不 同 进程 共享 资源 的 效率 高 。 

。 然而， 出 于 同样 的 原因 ， 线 程 不 能 防止 同一 进程 内 其 他 线程 的 非法 访问 。 

下 面 考 虑 在 一 个 已 有 的 执行 环境 中 创建 新 线程 的 开销 。 创 建新 线程 的 主要 工作 是 为 进程 栈 分 
配 一 个 区 域 并 为 处 理 器 中 的 寄存 器 、 线 程 执行 状态 (初始 值 可 以 是 SUSPENDED 或 RUNNABLE)， 
以 及 优先 级 提供 一 个 初始 值 。 因 为 执行 环境 已 经 存在 ， 因 此 系统 只 需要 在 线程 的 描述 符 记录 (其 
中 包含 管理 线程 执行 的 必要 数据 ) 中 放置 此 执行 环境 的 标识 符 即 可 。 

创建 进程 的 开销 一 般 远 远 高 于 创建 一 个 新 的 线程 的 开销 。 创 建 进程 时 ， 必 须 首先 创建 一 个 新 
的 执行 环境 ， 其 中 包括 一 个 地 址 空间 表 。Anderson 等 人 [1991] 给 出 了 下 列 数据 ， 在 运行 Topaz 内 核 
的 CVAX 处 理 器 体系 结构 上 ， 系 统 花费 11ms 用 于 创建 一 个 新 的 UNIX 进 程 ， 而 创建 一 个 线程 只 用 
lms。 其 中 ， 时 间 的 度量 包括 用 一 个 新 的 实体 调用 一 个 空 的 过 程 然 后 退出 。 这 些 数字 只 是 给 出 一 个 
大 致 的 估计 。 

当 这 个 新 的 实体 执行 一 些 有 用 的 工作 ， 而 不 是 只 调用 一 个 空 的 过 程 时 ， 它 会 产生 长 期 的 开销 ， 
但 创建 新 进程 所 产生 的 这 一 开销 仍 比 在 已 有 进程 中 创建 新 线程 的 开销 多 。 在 操作 系统 的 内 核 支持 
虚拟 内 存 的 情况 下 ， 新 创建 的 进程 第 一 次 引用 数据 和 指令 时 会 发 生 一 个 页 失 配 。 在 初始 情况 下 ， 
硬件 缓存 不 包含 新 进程 的 数据 值 ， 它 必须 在 进程 执行 时 获得 缓存 数据 。 在 新 线程 创建 的 过 程 中 ， 
这 样 的 长 期 开销 也 可 能 存在 ， 但 它 相对 要 小 一 些 。 当 新 线程 所 要 访问 的 程序 代码 和 数据 已 经 被 进 
程 中 的 其 他 线程 所 访问 时 ， 它 便 自动 地 利用 硬件 或 主 存 缓存 。 

线程 的 第 二 个 性 能 上 的 优点 在 于 线程 间 的 切换 。 所 谓 线程 切换 是 指 在 给 定 处 理 器 上 运行 一 个 
新 的 线程 以 代替 原来 运行 的 线程 。 它 的 开销 非常 重要 的 ， 因 为 这 在 线程 的 生命 期 中 会 经 常 发 生 。 
在 共享 同一 执行 环境 的 线程 之 间 切 换 的 开销 要 比 在 不 同 进程 的 线程 之 间 切 换 的 开销 低 得 多 。 线 程 
切换 的 开销 主要 来 源 于 调度 (选择 下 一 个 将 要 运行 的 线程 ) 和 上 下 文 切换 。 

处 理 器 的 上 下 文 包括 程序 计数 器 这 样 的 处 理 器 寄存 器 的 值 ， 还 包括 当前 硬件 的 保护 域 ， 地 址 
空间 和 处 理 器 保护 模式 (管理 模式 或 用 户 模式 )。 上 下 文 切换 是 在 线程 切换 时 或 一 个 线程 进行 系统 
调用 或 处 理 其 他 异常 时 发 生 的 上 下 文 转换 。 它 包括 以 下 两 方面 : 

。 保 存 处 理 器 寄存 器 中 原先 的 状态 ， 并 装载 新 的 状态 。 

。 在 某 些 情 况 下 ， 转 换 到 新 的 保护 域 ， 这 就 是 所 说 的 域 转换 。 

共享 同一 执行 环境 的 线程 只 有 完全 在 用 户 层 切 换 才 不 会 引起 域 转换 ， 并 且 其 系统 开销 也 比较 
低 。 切 换 到 内 核 或 通过 内 核 切 换 到 属于 同一 执行 环境 的 其 他 线程 会 涉及 域 转 换 ， 其 开销 会 相对 高 
一 些 。 然 而 ， 如 果 内 核 被 映射 到 进程 的 地 址 空间 ， 其 系统 开销 还 是 比较 低 的 。 如 果 在 不 同 执行 环 
境 的 线程 间 切 换 ， 其 开销 就 比较 大 。 下 面 会 描述 为 实现 域 转换 而 采用 硬件 缓存 。 当 域 转换 发 生 时 ， 
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人 们 更 希望 长 期 开销 只 是 由 访问 硬件 缓存 和 主 存 页 面 引起 的 。 Anderson 等 人 [1991] 提 供 的 数据 说 明 ， 
在 同一 执行 环境 下 ， 在 UNIX 的 进程 间 需 花费 1.8ms 进 行 线程 切换 ， 而 在 Topaz 内 核 上 只 需 花 费 
0.4ms。 如 果 线 程 在 用 户 级 切换 ， 则 花费 的 时 间 更 少 (0.04ms )。 这 些 数据 只 是 一 个 大 致 的 估计 ， 
此 处 没有 考虑 长 期 的 缓存 开销 。 

在 上 面包 含 两 个 线程 的 客户 进程 的 例子 中 ， 第 一 个 线程 产生 数据 ， 并 将 其 传递 给 第 二 个 线程 ， 
由 第 二 个 线程 进行 远程 方法 调用 或 远程 过 程 调用 。 因 为 这 两 个 线程 共享 地 址 空间 ， 所 以 不 需要 在 
它们 之 间 通 过 消息 传递 数据 ， 而 是 通过 一 个 公共 变量 来 访问 数据 。 这 里 存在 着 多 线程 操作 的 优点 
和 危险。 优点 在 于 它们 可 以 方便 、 高 效 地 访问 共享 数据 ， 在 服务 器 方 这 一 优点 体现 得 更 为 充分 ， 
如 上 面 给 出 的 缓存 文件 数据 的 例子 。 然 而 ， 如 果 共 享 同一 地 址 空间 的 线程 不 是 用 类 型 安全 的 语言 
编写 的 ， 那 么 它们 就 得 不 到 保护 。 一 个 异常 的 线程 可 以 随意 地 改变 其 他 线程 使 用 的 数据 ， 这 会 造 
成 错误 。 如 果 必 须 保护 执行 的 线程 ， 那 么 必须 用 安全 类 型 语言 编写 线程 ， 或 者 改 用 多 进程 而 不 是 
多 线程 。 











别名 问题 内 存 管理 单元 通常 包括 一 个 硬件 缓存 , 用 于 加 速 虚拟 地 址 和 物理 地 址 间 的 翻译 ， 
该 硬件 缓存 被 称 为 翻译 检索 组 冲 区 (TLB )。TLB 和 存放 虚拟 地 址 中 的 数据 和 指令 的 缓存 都 会 
遇 到 别名 问题 。 同 一 虚拟 地 址 可 以 在 两 个 不 同 的 地 址 空间 中 都 有 效 ， 但 实际 上 它们 在 两 个 地 址 
空间 中 指向 的 是 不 同 的 物理 数据 。 仅 当 它们 的 和 人口 被 标记 了 上 下 文 标识 符 ，TLB 和 虚拟 寻 址 的 
缓存 才 会 知道 这 一 点 ， 否 则 缓存 会 包含 不 正确 的 数据 。 因 此 ，TLB 和 缓存 内 容 必 须 有 选择 地 进 
和 不同 的 地 址 空间 。 物 理 寻 址 的 缓存 不 会 遇 到 别名 问题 ， 但 是 通常 采用 虚拟 寻 址 来 实现 缓存 查 
找 ， 这 是 因为 这 种 查找 操作 可 以 和 地 址 翻译 同时 进行 。 


线程 编程 ”线程 编程 是 一 种 并 发 编程 ， 就 像 通 常 在 操作 系统 中 的 研究 一 样 。 本 节 将 介绍 并 发 编 
程 的 概念 。Bacon[1998] 透 彻 地 解释 了 下 列 概念 : 竞争 条 件 、 临 界 区 (Bacon 把 它 电 做 临界 区 域 )、 
监视 器 、 条 件 变 量 、 信 号 量 。 

许多 线程 是 用 C 这 样 的 常规 语言 编写 的 ， 这 些 语言 一 般 有 线程 库 。 为 Mach 操 作 系统 开发 的 C 线 
程 包 便 是 一 个 例子 。 最 近 ，POSIX 线 程 标准 IEEE 1003.1c-1995， 也 就 是 所 说 的 pthreads ， 已 经 被 广 
泛 采 用 了 。Boykin 等 人 [1993] 基 于 Mach 系 统 描述 了 C 线 程 和 pthreads。 

一 些 语言 提供 了 对 线程 的 直接 支持 ， 其 中 包括 Ada95{Burns and Wellings 1998]、Modula- 
3[Harbison 1992] 和 最 近 的 Java[Oaks 和 Wong 1999]。 下 面 将 简单 介绍 一 下 Java 线 程 。 

像 许多 线程 实现 一 样 ，Java 提 供 了 线程 创建 、 销 毁 和 同步 的 方法 。Java Thread 类 包括 图 6-8 中 
的 构造 函数 和 管理 方法 。Thread 和 Object 的 同步 方法 在 图 6-9 中 列 出 。 








Thread{ThreadGroup group, Runnable target, String name) 

创建 … 个 状态 为 SUSPENDED 的 新 线程 ， 它 将 属于 group， 其 标识 符 为 name， 这 一 线程 会 执行 iarget 的 run( ) 方 法 。 
setPriority(int newPriority), getPriority() 

设置 和 返回 线程 的 优先 级 。 

run()} 

如 时 线程 的 目标 对 象 有 run() 方法 ， 线 程 执 行 其 目标 对 象 的 run () 方法 ， 否 则 它 执行 自己 的 rur() 方 法 
(Thread 实 现 Runnable)。 

start({) 

将 线程 的 SUVSPENDED 状 态 转换 为 RUNNABLE 状 态 。 

sleep(int millisecs} 

将 线程 转换 为 SUSPENDED 状 态 ， 并 持续 指定 的 时 间 。 

yield() 

进入 READY 状 态 并 调用 调度 程序 。 

destroy() 

销毁 线程 。 








图 6-8 Java 线程 的 构造 函数 和 管理 方法 
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thread.join(int millisecs) 
调用 进程 阻塞 指定 的 时 间 ， 直 到 thread 终 止 为 止 。 
thread.interrupt() 


中 断 thread， 使 其 从 导致 它 阻塞 的 方法 (如 sleep0) 返回 。 


object.wait{long millisecs, int nanosecs) 


阻塞 调用 线程 ， 直 到 调用 object 的 notify0) 或 notifyAUO 方 法 唤醒 线程 或 者 线程 被 中 断 ， 又 或 者 阻塞 了 指定 的 时 间 为 止 。 
object.notify(), object.notifyAll{ ) 


分 别 唤醒 一 个 或 多 个 在 object 上 调用 wait0) 方 法 的 线程 。 
图 6-9 Java 线 程 同 步调 用 


线程 生命 期 ”新 线程 和 它 的 创建 者 在 同一 台 Java 虚 拟 机 (JVM) 上 ， 一 开始 处 于 SUSPENDED 
状态 。 在 它 执行 了 start() 方 法 以 后 处 于 RUNNABLE 状 态 ， 这 之 后 ， 它 执行 在 其 构造 函数 中 指定 的 
一 个 对 象 的 run() 方 法 。JVM 和 其 上 的 线程 都 是 在 操作 系统 上 的 一 个 进程 内 执行 的 。 线 程 可 以 被 赋 
予 一 个 优先 级 ， 因 此 ， 支 持 优先 级 的 Java 实 现 会 在 运行 低 优先 级 线程 之 前 运行 高 优先 级 线程 。 当 线 
程 执行 完 run() 方 法 或 调用 destroy() 方 法 时 ， 线 程 的 生命 期 便 结束 了 。 

程序 可 以 按 组 管理 线程 。 在 创建 线程 时 ， 它 可 以 被 指定 属于 一 个 组 。 当 有 许多 应 用 程序 在 同 
一 个 JVM 上 运行 时 ， 线 程 组 是 非常 有 用 的 。 一 个 使 用 组 的 例子 是 利用 它 的 安全 性 : 在 默认 情况 下 ， 
一 个 组 内 的 线程 不 能 执行 其 他 组 中 的 线程 的 管理 操作 。 例 如 ， 一 个 应 用 程序 线程 不 能 恶意 打 断 系 
统 窗口 (AWT) 线程 。 

线程 组 也 使 对 线程 相关 优先 级 〈 在 支持 优先 级 的 Java 实 现 中 ) 的 控制 更 方便 。 这 对 运行 applet 
的 浏览 器 和 运行 servlet 程 序 的 Web 服 务 器 有 好 处 [Hunter and Crawford 1998]， 其 中 servlet 能 创建 动 
态 Web 页 面 。 在 applet 或 servlet 内 部 的 无 授权 的 线程 只 能 生成 属于 自己 线程 组 的 线程 ， 或 者 将 新 线 
程 加 入 到 在 其 内 部 生成 的 后 代 线 程 组 中 (其 详细 的 限制 由 它 所 在 的 安全 管理 器 决定 ) 。 浏 览 器 和 服 
务 器 可 以 将 属于 不 同 applet 或 servlet 的 线程 加 入 到 不 同 的 组 中 并 将 这 些 组 (包括 后 代 线 程 组 ) 作为 
一 个 整体 设置 一 个 最 大 的 优先 级 。applet 和 servlet 线 程 不 能 超越 其 管理 器 线程 设置 的 线程 组 的 优先 
级 ， 因 为 它们 不 能 再 用 setPriority() 覆 盖 优 先 级 。 

线程 同步 ”编程 者 必须 很 小 心地 编写 具有 多 线程 的 进程 。 其 中 最 困难 的 问题 是 共享 对 象 和 线程 
协调 和 合作 所 用 的 技术 。 每 一 个 线程 的 方法 中 的 局 部 变量 是 其 私有 的 一 一 线程 有 其 私有 栈 。 然 而 ， 
线程 没有 静态 (类 ) 变量 或 对 象 实例 变量 的 私有 拷贝 。 

例如 ， 在 上 面 的 共享 队列 的 例子 中 ，I/O 线 程 和 工作 线程 在 一 些 服务 器 线程 体系 结构 中 传输 请 
求 。 线 程 并 发 处 理 像 队列 这 样 的 数据 结构 时 必然 会 引起 竞争 。 除 非 仔细 协 调 线程 的 指针 操作 ， 和 否 
则 必然 会 引起 队列 中 请 求 的 丢失 或 重复 处 理 。 

Java 提 供 了 synchronized 关 键 字 以 便 程序 员 为 线程 的 协调 指定 监视 器 。 程 序 员 可 以 指定 完整 的 
方法 ， 也 可 以 指定 任意 代码 块 属于 某 个 对 象 的 监控 器 。 监 视 器 可 以 保证 在 同一 时 刻 最 多 只 有 一 个 
线程 在 执行 。 通 过 将 Queue 类 的 addTo() 和 removeFrom() 方 法 指定 为 synchronized 方 法 ， 我 们 可 以 将 
例子 中 UO 线程 和 工作 线程 的 操作 串 行 化 。 在 这 些 方法 中 所 有 访问 变量 的 操作 都 是 互 斥 完成 的 。 

Java 允 许 通 过 任何 作为 条 件 变 量 的 对 象 来 阻塞 或 唤醒 线程 。 需 要 阻 塞 以 等 待 某 一 条 件 的 线程 调 
用 该 对 象 的 wait() 方 法 。 所 有 的 Java 对 象 都 实现 了 这 一 方法 ， 因为 它 属于 Java 的 根 Object 类 。 另 外 一 - 
个 线程 调用 notify () 方 法 来 为 至 多 一 个 等 待 该 对 象 的 线程 解除 阻塞 状态 ， 也 可 以 调用 notifyAll() 方 
法 为 所 有 等 待 该 对 象 的 线程 解除 阻塞 状态 。 这 两 个 唤醒 方法 也 属于 Object 类 。 

作为 一 个 例子 ， 当 一 个 工作 线程 发 现 没 有 可 处 理 的 请 求 时 ， 它 会 调用 Queue 类 对 象 的 wait() 方 
法 。 当 IO 线程 在 队列 中 加 入 一 个 请 求 时 ， 它 会 调用 队列 的 notify() 方 法 以 唤醒 工作 线程 。 

图 6-9 给 出 了 Java 的 同步 方法 。 除 了 上 文 提 到 的 同步 原 语 外 ，join() 方 法 将 阻塞 其 调用 者 ， 直 到 
目的 线程 终结 为 止 。interrupt() 方 法 用 于 过 早 地 唤醒 等 待 进程 。 Java 实 现 了 所 有 标准 的 同步 原 语 ， 
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如 信号 量 。 但 必须 注意 ， 因 为 Java 的 监视 器 保证 只 应 用 于 对 象 的 同步 代码 ， 一 个 类 可 能 会 同时 包括 
同步 和 非 同 步 的 方法 。 还 要 注意 ，Java 对 象 实现 的 监视 器 只 包括 一 个 隐 式 条 件 变 量 ， 而 通常 ， 一 个 
监视 器 可 以 包含 多 个 条 件 变量 。 

线程 调度 ”抢占 性 和 非 抢 占 性 线程 调度 策略 之 间 的 区 别 非 常 明显 。 在 抢占 性 调度 中 ， 线 程 可 以 
在 执行 中 的 任 一 时 刻 因 被 其 他 线程 抢占 而 挂 起 ， 甚 至 当 已 经 抢占 处 理 器 的 线程 正 准 备 运 行 时 也 是 
如 此 。 在 非 抢占 性 调度 中 〈 有 时 也 叫 协同 调度 ) ， 当 系统 准备 让 一 个 线程 退出 运行 并 让 其 他 线程 运 
行 时 ， 此 线程 并 不 一 定 退 出 ， 它 要 运行 到 进行 一 次 线程 系统 的 调用 (例如 系统 调用 ) 为 止 。 

非 抢占 性 调度 的 好 处 在 于 ， 每 一 个 不 包含 对 线程 系统 调用 的 代码 区 都 自动 地 成 为 临界 区 。 这 
样 可 以 很 方便 地 避免 竟 争 。 另 一 方面 ， 因 为 非 抢占 性 调度 的 线程 是 独占 式 运行 的 ， 所 以 它们 不 能 
利用 多 处 理 器 。 要 小 心 对 待 长 期 运行 的 不 含 线程 系统 调用 的 代码 区 。 程 序 员 需要 在 程序 中 加 入 一 
个 yieldO 调 用 ， 其 唯一 的 作用 在 于 使 其 他 线程 能 被 调度 执行 。 非 抢占 性 调度 的 线程 也 同样 不 适合 于 
实时 应 用 ， 在 实时 应 用 中 ， 事 件 必须 在 规定 的 时 间 内 被 处 理 。 

尽管 有 在 Java 上 实现 的 实时 系统 [www.rtj.org]， 但 在 默认 情况 下 ，Java 不 支持 实时 处 理 。 例 如 ， 
处 理 音频 和 视频 的 多 媒体 应 用 程序 对 通信 和 处 理 (例如 过 滤 和 压缩 ) 有 实时 要 求 [Govindan and 
Anderson 1991]。 第 17 章 将 讨论 实时 线程 调度 的 需求 。 进 程控 制 是 实时 领域 中 的 另 一 个 例子 。 一 般 
来 说 ， 每 个 实时 领域 都 有 其 自己 的 线程 调度 要 求 。 因 此 ， 有 时 需要 应 用 程序 实现 自己 的 调度 策略 。 
考虑 到 这 一 点 ， 下 面 我 们 将 介绍 线程 的 实现 。 

线程 实现 许多 操作 系统 内 核 ， 包 括 Windows 、Linux、Solaris、 Mach 和 Choms 都 支持 多 线程 进 
程 。 这 些 内 核 提 供 了 用 于 线程 创建 和 管理 的 系统 调用 ， 同 时 它们 还 负责 线程 调度 。 其 他 一 些 内 核 只 
提供 了 单线 程 进程 的 抽象 。 多 线程 进程 必须 在 一 个 与 应 用 程序 相 联系 的 过 程 库 中 实现 。 在 这 种 情况 
下 ， 内 核 不 知道 这 些 用 户 级 的 线程 ， 因 此 就 不 能 调度 它们 。 这 时 ， 由 线程 运行 时 库 组 织 线程 调度 。 
通过 一 个 阻塞 系统 调用 ， 一 个 线程 可 以 阻塞 进程 和 进程 中 所 有 线程 ， 这 样 可 以 开发 内 核 的 异步 ( 非 
阻塞 的 ) 输入 输出 功能 。 类 似 地 ， 也 可 以 利用 内 核 提 供 的 定时 器 和 软 中 断 来 实现 线程 的 时 间 片 机 制 。 

当 内 核 不 支持 多 线程 进程 时 ， 实 现 用 户 级 的 线程 时 会 遇 到 下 列 癌 题 ， 

。 一 个 进程 内 的 线程 不 能 利用 多 处 理 器 。 

。 一 个 线程 在 遇 到 页 失 配 时 会 阻塞 整个 进程 和 进程 内 所 有 的 线程 。 

。 不同 进程 中 的 线程 不 能 按 统一 的 优先 级 方案 调度 。 

男 一 方面 ， 相 对 于 内 核 级 的 线程 实现 ， 用 户 级 的 线程 实现 有 如 下 优点 ; 

。 某 些 线程 操作 的 开销 小 。 例 如 ， 在 同一 进程 内 的 线程 间 切 换 不 必 进 行 系统 调用 ， 而 系统 调 

用 需要 陷入 内 核 ， 其 开销 是 比较 大 的 。 

。 因 为 线程 调度 模块 是 在 内 核 外 部 实现 的 ， 用 户 可 以 定制 或 改变 其 功能 以 满足 某 些 应 用 的 需 

要 。 像 多 媒体 处 理 系 统 (实时 性 ) 这 样 的 有 特殊 性 的 应 用 系统 对 线程 调度 的 要 求 各 不 相同 。 

。 能 支持 比 内 核 默认 支持 更 多 的 用 户 级 线程 。 

可 以 将 用 户 级 线程 实现 和 内 核 级 线程 实现 的 优点 组 合 起 来 。 一 种 已 经 被 应 用 的 方法 是 使 用 户 
级 代码 能 为 内 核 线程 调度 器 提供 调度 提示 ， 例 如 Mach 内 核 [1990]。 另 外 一 种 方法 是 采用 层次 化 调 
度 ， 如 Solaris2 操 作 系统 采用 的 方式 。 每 一 个 进程 可 以 创建 一 个 或 多 个 内 核 级 线程 ， 在 Solaris 中 电 
做 “ 轻 量 级 进程 ”"， 它 同时 支持 用 户 级 线程 。 用 户 级 调度 器 将 每 一 个 用 户 级 线程 指定 到 一 个 内 核 级 
线程 上 。 这 一 机 制 可 以 充分 利用 多 处 理 器 ， 同时 也 可 以 获得 因为 线程 创建 和 线程 切换 都 在 用 户 级 
进行 而 得 到 好 处 。 这 一 模式 的 缺点 在 于 它 缺 少 灵活 性 。 如 果 一 个 线程 在 内 核 中 被 阻塞 ， 那 么 所 有 
指定 在 其 上 的 用 户 级 线程 ， 不 管 其 是 否 能 够 运行 ， 都 不 能 运行 了 。 

为 了 进一步 提供 有 效 性 和 灵活 性 ， 一 些 研究 项 目 开 发 出 了 层次 化 调度 。 其 中 包括 所 谓 的 调度 
器 激活 [Anderson et al. 1991]、 Govindan 和 Anderson[1991] 的 多 媒体 工作 、Psyche 多 处 理 器 操作 系 
统 [Marsh et al. 1991]、Nemesis 内 核 [Leslie et al. 1996] 和 SPIN 内 核 [Bershad et al. 1995]。 设 计 这 些 
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系统 的 原因 是 : 用 户 级 调度 对 内 核 的 需要 并 不 能 完全 由 将 内 核 级 线程 映射 到 用 户 级 线程 这 种 方式 
来 满足 。 用 户 级 调度 器 还 需要 内 核 向 它 通知 与 它 调度 决定 相关 的 事件 。 下 面 将 介绍 调度 器 激活 的 
设计 ， 以 使 读者 能 详细 了 解 这 一 点 。 

Anderson 等 [1991] 的 “快速 线程 包 ”是 一 个 层次 化 、 基 于 事件 的 调度 系统 。 他 们 考虑 到 ， 主 要 
的 系统 组 件 是 一 个 运行 在 一 个 或 多 个 处 理 器 上 的 内 核 和 一 些 在 其 上 运行 的 应 用 程序 。 每 一 个 应 用 
进程 包括 一 个 用 户 级 的 调度 器 ， 它 负责 管理 进程 内 的 线程 。 内 核 负 责 给 进程 分 配 虚拟 处 理 器 。 为 
一 个 进程 指定 的 虚拟 处 理 器 的 数量 取决 于 下 列 因素 : 应 用 程序 的 需求 、 它 们 的 相对 优先 级 以 及 对 
处 理 器 总 的 需求 量 。 图 6-10a 描 述 了 一 个 包含 3 个 处 理 器 的 计算 机 的 例子 ， 其 中 ， 内 核 将 一 个 虚拟 处 
理 器 分 配给 进程 A， 用 于 执行 一 个 优先 级 相对 低 的 任务 ， 同 时 将 两 个 虚拟 处 理 器 分 配给 进程 B。 因 
为 内 核 随 着 时 间 的 流逝 可 以 为 进程 分 配 不 同 数量 的 处 理 器 ， 然 而 在 不 同 的 时 间 可 以 将 不 同 的 物理 
处 理 器 分 配给 该 进程 ， 所 以 将 其 称 为 虚拟 处 理 器 。 





| 进程。 进程， i 
虚拟 处 理 器 内 核 
a) 将 虚拟 处 理 器 分 配给 进程 b) 在 用 户 级 调度 器 和 内 核 之 间 的 事件 
注 : P= 处 理 器 ; SA = 调度 器 激活 。 


图 6-10 调度 器 激活 


分 配给 进程 的 虚拟 处 理 器 的 数量 也 可 以 变化 。 进 程 可 以 让 出 一 个 它 不 再 需要 的 虚拟 处 理 器 ， 
也 可 以 请 求 一 个 额外 的 虚拟 处 理 器 。 例 如 ， 如 果 进 程 A 请 求 获得 一 个 额外 的 虚拟 处 理 器 而 进程 B 终 
止 了 ， 那 么 内 核 可 以 将 一 个 处 理 器 分 配给 进程 A。 

图 6-10b 描 述 了 当 一 个 虚拟 处 理 器 “空闲 ”并 不 再 需要 时 ， 或 者 当 进程 请 求 获得 额外 的 虚拟 处 
理 器 时 ， 进 程 通知 内 核 的 情况 。 

图 6-10b 也 描述 了 四 种 类 型 的 事件 发 生 时 ， 内 核 通知 进程 的 情况 。 调 度 器 激活 (SA) 是 一 个 从 
内 核 到 进程 的 调用 ， 它 通知 进程 的 调度 器 有 一 个 事件 发 生 。 从 一 个 低层 (内 核 ) 进入 一 个 上 层 代 
码 区 的 方式 被 称 为 上 调 ， 内 核 通 过 从 物理 处 理 器 的 寄存 器 中 载 人 上 下 文 来 创建 一 个 SA， 这 个 上 下 
文 用 以 使 进程 的 代码 在 用 户 级 调度 器 指定 的 过 程 地 址 处 得 以 开始 运行 。 这 样 ， 一 个 SA 也 是 虚拟 处 
理 器 上 一 个 时 间 片 的 分 配 单元 。 用 户 级 调度 器 把 处 于 READY 状 态 的 线程 指定 给 当前 正在 执行 的 SA 
集合 。SA 的 数量 最 多 不 能 超过 内 核 指 定 给 进程 的 虚拟 处 理 器 的 数量 。 

下 面 是 内 核 通 知 用 户 级 调度 器 (下 面 将 简称 为 调度 器 ) 的 四 种 事件 : 

虚拟 处 理 器 已 分 配 : 内 核 已 经 将 一 个 新 的 虚拟 处 理 器 指定 给 进程 ， 并 且 这 正 是 其 上 的 第 一 个 
时 间 片 ， 调 度 器 可 以 在 READY 状 态 线程 的 上 下 文中 载 人 SA， 线 程 重新 开始 执行 。 

SA 被 阻塞 ， SA 在 内 核 中 被 阻塞 。 内 核准 备 使 用 一 个 新 的 SA 来 通知 调度 器 ， 调 度 器 将 相应 线 
程 的 状态 设置 为 BLOCKED ， 并 分 配 一 个 READY 线 程 给 用 于 通知 SA。 

SA 被 解除 阻塞 : 在 内 核 中 阻塞 的 SA 被 激活 ， 可 以 再 次 在 用 户 级 执行 。 调 度 器 现在 可 以 将 相应 
的 线程 插入 到 READY 列 表 中 。 为 了 创建 用 于 通知 的 SA, 内 核 或 者 为 进程 分 配 一 个 新 的 虚拟 处 理 器 ， 
或 者 它 抢占 同一 进程 上 的 另 一 个 SA。 在 后 一 种 情况 中 ， 它 同时 将 抢占 事件 发 送 给 调度 器 ， 调 度 器 
可 以 重新 评估 到 SA 的 线程 分 配 情况 。 
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SA 被 抢占 : 内核 从 进程 夺 走 一 个 SA (虽然 可 以 通过 将 一 个 处 理 器 分 配给 在 同一 进程 上 新 的 SA 
的 方式 完成 以 上 工作 ) ， 调度 器 将 被 抢占 的 线程 放 到 READY 列 表 中 ， 并 重新 评估 线程 分 配 情况 。 

因为 进程 的 用 户 级 调度 器 可 以 根据 在 低级 事件 的 基础 上 建立 的 任何 协议 将 线程 分 配给 SA， 所 
以 层次 化 调度 方式 更 具有 灵活 性 。 内 核 总 以 同一 方式 运行 。 它 不 会 影响 用 户 级 调度 器 的 行为 ， 但 
是 它 通过 事件 通知 和 提供 阻塞 和 抢占 线程 的 寄存 器 状态 来 帮助 调度 。 这 一 方式 可 能 是 有 效 的 ， 因 
为 它 保证 了 当 有 一 个 虚拟 处 理 器 可 以 运行 时 ， 就 不 会 有 用 户 级 线程 仍 需要 处 于 READY 状 态 。 


6.5 通信 和 调用 


下 面 我 们 将 把 通信 作为 调用 机 制 的 实现 的 一 部 分 来 进行 讨论 。 调 用 的 例子 有 远程 方法 调用 、 
远 过 程 调 用 和 事件 通知 ， 其 作用 是 在 不 同 的 地 址 空间 上 执行 对 资源 的 操作 。 

通过 考虑 下 面 的 关于 操作 系统 的 问题 ， 我 们 可 以 探讨 一 下 操作 系统 的 设计 : 

。 操 作 系统 提供 什么 样 的 通信 原 语 ? 

。 操 作 系 统 支持 什么 样 的 协议 以 及 通信 实现 的 开放 性 有 多 大 ? 

。 应 采取 哪些 步骤 以 使 通信 尽 可 能 地 有 效 ? 

。 为 高 延迟 和 断 链 操作 提供 了 哪些 支持 ? 

通信 原 语 ”一些 为 分 布 式 系统 内 核 所 提供 的 通信 原 语 与 第 5 章 描述 的 调用 类 型 是 相 适 应 的 。 例 
如 ，Amoeba[Tanenbaum et al. 1990] 提供 了 doOperation、getRequest 和 sendReply 这 样 的 通信 原 语 。 
Amoeba、V 系 统 和 Chorus 系 统 都 提供 了 组 通信 原 语 。 在 内 核 中 加 入 相对 高 层 的 通信 功能 可 以 提高 
效率 。 例 如 ， 如 果 中 间 件 在 UNIX 连 接 (TCP) 套 接 字 上 提供 RMI， 那 么 客户 就 必须 为 每 次 远程 调 
用 进行 两 次 通信 系统 调用 ( 套 接 字 的 读 和 写 )。 而 在 Amoeba 上 ， 它 只 需要 调用 一 次 doOperation，。 
用 组 通信 更 能 节省 系统 调用 上 的 开销 。 

实际 上 ， 是 中 间 件 而 不 是 内 核 提供 了 现在 系统 中 的 大 多 数 高 级 通信 方式 ， 包 括 RPC/RMI、 事 
件 通信 和 组 通信 。 在 用 户 级 上 开发 这 种 复杂 的 软件 系统 的 代码 比 在 内 核 上 开发 要 容易 。 开 发 者 通 
常 在 提供 对 因特网 标准 协议 访问 的 套 接 字 上 实现 中 间 件 一 -通常 使 用 有 连接 的 TCP 协 议 ， 有 时 也 使 
用 无 连接 的 UDP 协议 。 使 用 套 接 字 的 主要 原因 是 考虑 到 可 移植 性 和 互 操作 性 : 中 间 件 需要 尽 可 能 
地 在 多 种 操作 系统 之 上 运行 ， 并 且 像 UNIX 和 Windows 系 列 这 样 的 操作 系统 通常 都 提供 了 类 似 的 套 
接 字 API 以 便 通 过 TCP 和 UDP 协议 进行 访问 。 

尽管 广泛 使 用 的 是 由 公共 内 核 提 供 的 TCP 和 UDP 套 接 字 ， 但 在 一 些 试验 性 的 操作 系统 内 核 上 
还 是 进行 了 一 些 低 开销 的 通信 和 原 语 研 究 。6.5.1 节 将 进一步 讨论 其 性 能 问题 。 

协议 和 开放 性 操作 系统 提供 标准 的 协议 ， 由 这 些 协 议 实现 在 不 同 平台 上 的 中 间 件 之 间 的 互 操 
作 ， 这 是 对 操作 系统 主要 需求 之 一 。 在 20 世 纪 80 年 代 ， 一 些 研 究 性 的 操作 系统 内 核 将 自己 的 网 络 
协议 与 RPC 交 互 结 合 起 来 ， 其 中 有 著名 的 Amoeba RPC{van Renesse et al. 1989]、VMTP{Cheriton 
1986] 和 Sprite RPC{Ousterhout et al. 1988]。 然 而 ， 这 些 协议 并 没有 被 广泛 应 用 。 相 反 ，Mach 3.0 和 
Chorus 内 核 (也 包括 L4[Hirtig et al. 1997]) 的 设计 者 们 决定 采用 完全 开放 的 网 络 协 议 。 这 些 内 核 
只 提供 在 本 地 进程 之 间 的 消息 传递 机 制 ， 并 将 网 络 协议 处 理 留 给 在 内 核 上 运行 的 一 个 服务 器 完成 。 

如 果 需 要 频繁 地 访问 (例如 ， 每 天 都 访问 ) 因特网 ， 那 么 (除了 最 小 的 网 络 设备 的 ) 操作 系 
统 需要 实现 在 TCP 和 UDP 层 的 兼容 性 。 操 作 系 统 也 要 求 中 间 件 能 利用 新 的 低层 协议 。 例 如 ， 用 户 希 
望 在 不 升级 它 的 应 用 程序 的 情况 下 利用 像 红 外 和 射频 (RF) 传 输 这 样 的 无 线 技术 时 ， 就 需要 集成 相 
应 的 协议 (例如 红外 网 络 使 用 的 IrDA 和 RF 网 络 使 用 的 HomeRF 或 蓝牙 技术 )。 

协议 通常 被 安排 在 一 个 有 层次 的 栈 中 ( 见 第 3 章 )。 许 多 操作 系统 允许 新 的 层次 被 静态 地 集成 ， 
而 这 是 靠 加 入 像 IIDA 这 样 的 永久 安装 的 协议 “驱动 器 ”作为 其 新 的 一 层 来 完成 的 。 相 反 ， 动 态 协 
议 合成 是 一 项 使 协议 栈 能 灵活 合成 新 的 层次 的 技术 ， 其 合成 可 以 满足 特定 应 用 的 需要 ， 并 能 够 利 
用 可 用 的 物理 层 。 例 如 ， 当 用 户 在 路 上 时 ， 运 行 在 笔记 本 电脑 上 的 Web 浏 览 器 可 以 利用 广 域 无 线 
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连接 ， 当 用 户 返 回 办 公 室 时 ， 可 以 利用 快速 以 太 网 连接 。 

动态 协议 合成 的 另 一 个 例子 是 用 户 可 以 在 无 线 网 络 层 上 使 用 用 户 定制 的 请 求 -应 答 协议 来 减少 往 
返 延 迟 。 已 经 证 实 , 标准 的 TCP 协 议 实 现 不 能 在 无 线 网 络 介质 上 很 好 地 工作 [Balakrishnan et al. 19961， 
因为 相对 于 有 线 介 质 ， 在 无 线 介质 上 可 能 会 有 更 高 的 丢 包 率 。 原 则 上 ， 一 个 像 HTTP 这 样 的 请 求 一 应 
答 协 议 只 有 通过 直接 使 用 无 线 传 输 层 ， 而 不 是 用 TCP 层 ， 才 能 使 无 线 连接 的 节点 有 效 地 工作 。 

在 UNIX 流 设施 [Ritchie 1984] 的 设计 中 支持 协议 合成 。 最 近 ，Horusfvan Renesse et al. 1995] 和 
X-kernel[Hutchinson and Peterson 1991] 都 提供 了 动态 协议 合成 。 


6.5.1 调用 性 能 


在 分 布 式 系统 设计 中 ， 调 用 性 能 是 一 个 非常 关键 的 因素 。 如 果 设 计 者 在 地 址 空间 之 间 分 离 的 
功能 越 多 ， 使 用 的 远程 调用 也 就 越 多 。 客 户 和 服务 器 在 其 生命 期 内 可 能 会 执行 上 百 万 个 与 调用 有 
关 的 操作 ， 这 样 应 该 有 一 小 部 分 时 间 应 计 入 调用 开销 。 网 络 技术 一 直 在 发 展 ， 但 调用 时 间 并 没有 
因 网 络 带宽 的 增加 而 成 比例 地 减少 。 本 节 将 解释 为 什么 在 调用 时 间 上 软件 的 开销 会 比 网 络 的 开销 
大 得 多 ， 最 少 在 局 域 网 或 企业 内 部 网 上 是 如 此 。 这 与 在 因特网 上 的 远程 调用 (例如 获得 一 个 Web 
资源 ) 完全 相反 。 在 因特网 上 ， 网 络 延迟 通常 变化 很 大 ， 平 均值 也 很 高 ， 带 宽 通常 很 低 ， 服 务 器 
的 负载 主要 花费 在 对 每 一 个 请 求 的 处 理 上 。 

RPC 和 RMI 的 实现 问题 已 经 成 为 研究 的 主题 ， 因 为 通用 的 客户 一 服务 器 处 理 广泛 采用 了 这 种 机 
制 。 许 多 研究 已 经 涉及 在 网 络 上 的 调用 ， 并 且 特 别 研究 了 如 何 更 好 地 利用 高 性 能 网 络 来 实现 调用 
机 制 [Hutchinson et al. 1989，van Renesse et al. 1989, Schroeder and Burrows 1990 ，Johnson and 
Zwaenepoel 1993，von Ficken et al. 1995, Gokhale and Schmidt 1996]。 当 然 ， 也 有 一 些 研 究 注重 于 
在 同一 计算 机 不 同 进程 之 间 的 RPC[Bershad et al. 1990，Bershad et al. 1991] 。 

调用 开销 调用 一 个 传统 过 程 或 方法 ， 进 行 一 次 系统 调用 ， 发 送 一 条 消息 ， 进 行 远程 过 程 调用 
和 远程 方法 调用 ， 这 些 都 是 调用 机 制 的 例子 。 每 一 种 调用 机 制 都 导致 在 调用 过 程 和 对 象 之 外 的 代 
码 被 执行 。 一 般 每 次 调用 都 涉及 将 参数 传递 给 调用 代码 的 通信 ， 以 及 将 结果 返回 给 调用 者 的 通信 。 
调用 机 制 可 以 是 同步 的 (例如 传统 调用 和 远 过 程 调用 )， 也 可 以 是 异步 的 。 

除了 是 否 异步 ， 对 调用 机 制 的 性 能 影响 最 大 的 因素 为 是 否 涉及 域 转换 (也 就 是 说 ， 它 是 否 跨 
越 了 一 个 地 址 空间 )、 它 是 否 涉 及 网 络 上 通信 ， 以 及 它 是 否 涉及 线程 调度 和 切换 。 图 6-11 表 示 了 一 
个 系统 调用 、 在 同一 计算 机 上 不 同 进程 之 间 的 远程 调用 和 在 分 布 式 系统 上 不 同 节 点 的 计算 机 进程 
之 间 的 远程 调用 三 个 例子 。 


a) 系统 调用 线程 一 、_ _ 加 通过 陷阱 指令 控制 转换 


~ 一 一 -通过 中 
用 下 黄村 通过 特权 指令 控制 转换 


保护 域 边 界 
b) RPC/RMI (在 一 个 计算 机 内 ) / 


一 


线程 1 线程 2 
_ 
用 户 1 ”内 核 ”用 户 2 


c) RPC/RMI (在 计算 机 间 ) 


线程 1 | 网 络 |! 线程 2 


一 A 人 < 一 
用 户 1 内 核 h ! 内 核 2 用 户 2 
图 6-11 在 地 址 空间 之 间 的 调用 





在 网 络 上 的 调用 一 个 空 的 RPC (类 似 的 ， 一 个 空 的 RMI) 是 一 个 没有 参数 、 执 行 一 个 空 的 过 
程 ， 也 不 返回 值 的 RPC。 它 负责 交换 不 包括 任何 用 户 数 据 、 只 包含 很 少 系统 数据 的 消息 。 现 在 ， 
通过 100Mbps 的 LAN 在 两 台 500MHz 的 PC 机 上 的 用 户 进程 间 进 行 一 次 空 的 RPC， 其 时 间 开 销 在 儿 十 
毫秒 这 个 数量 级 内 ， 而 一 个 传统 的 空 过 程 调用 只 需 小 于 1 微 秒 的 时 间 。 假 设 这 一 空 的 RPC 调 用 总 共 
有 100 字 节 的 数据 需要 传输 ， 在 带宽 为 100Mbps 的 网 络 上 ， 这 些 数据 总 共 的 传输 时 间 大 约 是 0.01ms。 
客户 调用 RPC 总 共 花 费 的 时 间 一 一 是 来 源 于 操作 系统 内 核 代码 和 用 户 级 
RPC 执 行 代码 的 执行 时 间 开销 。 

空调 用 (RPC、RMI) 的 开销 是 非常 重要 的 ， 因 为 它 度量 了 一 个 固定 的 开销 ， 也 就 是 延迟 。 随 
着 参数 和 结果 数据 量 的 增加 ， 调 用 开销 也 会 增加 ， 但 在 许多 情况 中 ， 空 调用 的 延迟 比 其 他 类 型 的 
延迟 要 大 得 多 。 

假设 一 个 RPC 从 服务 器 上 获得 指定 数量 的 数据 。 它 包含 一 个 整数 型 请 求 参数 ， 用 于 指明 所 需 
的 数据 量 的 大 小 。 在 返回 结果 时 ， 它 包括 两 个 返回 参数 ， 一 个 整数 型 参数 表示 调用 是 成 功 还 是 失 
败 (客户 可 能 提供 的 是 一 个 非法 的 数据 量 大 小 )。 在 调用 成 功 的 情况 下 ， 另 一 参数 为 从 服务 器 返回 

一 个 字 节 数组 。 

图 6-12 表 示 了 所 需 数 据 量 与 客户 延迟 的 关系 。 在 数据 量 的 大 小 达到 一 个 同 网 络 数据 包 大 小 相 
近 的 阔 值 之 前 ， 延 迟 和 数据 量 的 大 小 基本 上 成 正比 。 
超过 这 一 阐 值 之 后 ， 为 了 传输 额外 的 数据 ， 系 统 至 少 
要 多 传送 一 个 额外 的 包 。 根 据 协议 ， 为 了 确认 这 个 客 
外 的 包 ， 可 能 还 需要 传 一 个 数据 包 。 每 一 次 需要 多 传 — 
送 一 个 包 时 ， 图 上 便 会 出 现 一 个 跳跃 。 

在 RPC 的 实现 中 ， 延 迟 并 不 是 被 关注 的 唯一 数据 : 
当 数 据 成 批 传输 时 ，RPC 带 宽 (或 吞吐 量 ) 也 会 受到 
关注 。 它 表示 在 一 个 RPC 内 的 不 同 计算 机 间 的 数据 传 | oo 人 mm 
输 率 。 从 图 6-12 中 我 们 可 以 知道 : 当 固定 处 理 的 时 间 网 
开销 占 总 开销 的 绝 大 部 分 时 ， 对 于 少量 的 数据 ，RPC 大 小 
的 带宽 相对 较 低 。 随 着 数据 量 的 增加 ， 带 寅 会 增加 ， 、 
这 是 因为 那些 固定 处 理 的 开销 变 得 相对 比较 小 。 于 6 1 PC 延迟 与 参数 量 大 小 的 关系 
Gokhale 和 Schmidt[19961 引 用 了 一 个 例子 : 在 具有 155Mbps 带 宽 的 ATM 网 络 上 ， 当 在 工作 站 之 间 的 
RPC 上 传输 64KB 数 据 时 ， 吞 吐 量 大 约 为 80Mbps， 即 花费 0.8ms 来 传输 64KB 的 数据 ， 它 与 上 面 提 到 
的 在 100Mbps 以 太 网 上 进行 一 个 空 的 RPC 属 于 同一 数量 级 。 

回想 一 下 ， 一 个 RPC 包 括 如 下 步 (RMI 也 包含 类 似 的 步 又) ; 

一 个 客户 存根 程序 将 调用 参数 编码 为 消息 ， 并 将 请 求 消息 发 送出 去 ， 然 后 接收 应 答 消息 ， 

并 将 其 解码 。 

"在 服务 器 端 ， 一 个 工作 线程 接收 到 达 的 请 求 ， 或 者 由 一 个 1/O 线 程 负责 接收 请 求 ， 并 将 其 传 

递 给 工作 线程 。 不 论 在 哪 种 情况 下 ， 都 要 调用 合适 的 服务 器 存根 程序 。 

。 服 务 器 存根 程序 将 请 求 消息 解码 ， 调 用 指定 的 过 程 并 将 返回 值 编码 并 发 送出 去 。 

下 面 是 除 网 络 传输 时 间 之 外 造成 远程 调用 延迟 的 主要 因素 ， 

编码 : 编码 和 解码 涉及 拷贝 和 转换 数据 ， 当 数据 量 增加 时 ， 它 们 会 成 为 一 个 重要 的 时 间 开销 。 

数据 拷贝 :即使 在 编码 之 后 ， 在 一 个 RPC 过 程 中 ， 消 息 数据 也 可 能 会 被 多 次 拷贝 ， 

1) 跨越 用 户 ~ 内 核 边界 ， 在 客户 或 服务 器 地 址 空间 和 内 核 缓冲 区 之 间 。 

2) 在 每 个 协议 层 之 间 (例如 ，RPC/UDP/IP/ 以 太 网 )。 

3) 在 网 络 接口 和 内 核 缓冲 区 之 间 。 

网 络 接口 和 主 存 之 间 的 传输 通常 是 由 直接 内 存 访问 (DMA) 来 处 理 的 。 其 他 拷贝 则 是 由 处 理 
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器 处 理 的 。 

包 初 始 化 : 它 涉 及 初始 化 协议 头 部 和 协议 尾部 ， 包 括 校 验 和 。 它 的 开销 部 分 地 与 需 传输 数据 
量 的 大 小 成 正比 。 

线程 调度 和 上 下 文 切换 ， 它 包 括 如 下 部 分 : 

1) 当 存 根 程序 调用 内 核 的 通信 操作 时 ， 在 一 个 RPC 过 程 中 会 产生 几 个 系统 调用 〈 即 上 下 文 
切换 ) 。 

2) 调度 一 个 或 多 个 服务 器 线程 。 

3) 如 果 操 作 系 统 采 用 单独 的 网 络 管理 器 进程 ， 那 么 每 一 次 Send 操 作 会 涉及 线程 之 间 的 上 下 
文 切 换 。 

确认 等 待 : RPC 协 议 的 选择 会 影响 延迟 ， 特 别 是 当 有 大 量 数据 需要 传输 的 时 候 。 

小 心 设 计 操 作 系 统 有 助 于 减少 这 些 开 销 。 在 www.cdk3.net/oss 上 可 以 找到 Firefly RP 的 实例 研 
究 ， 其 中 还 包括 在 中 间 件 实现 中 可 用 的 技术 。 我 们 已 经 介绍 过 了 一 些 操 作 系统 是 怎样 支持 线程 以 
减少 多 线程 开销 的 。 操 作 系统 通过 内 存 共享 机 制 可 以 减少 内 存 拷贝 开销 。 

内 存 共 享 ”共享 区 域 ( 见 6.4 节 ) 可 以 用 于 用 户 进程 和 内 核 之 间或 者 在 用 户 进程 之 间 的 快速 通 
信 。 通 过 在 共享 区 域 中 写 数据 和 读数 据 可 以 实现 数据 通信 。 这 样 可 以 实现 高 效 数 据 传输 ， 不 需要 
从 内 核 地 址 空间 或 向 内 核 地 址 空间 拷贝 数据 。 但 系统 调用 和 软件 中 断 可 能 需要 同步 ， 例 如 ， 当 用 
户 进程 写 完 数 据 后 应 立刻 将 其 传输 ， 或 者 当 内 核 写 完 数 据 后 ， 用 户 进程 应 立刻 获得 它 。 当 然 ， 当 
共享 区 域 带 来 的 优点 大 于 建立 它 所 带 来 的 开销 时 ， 才 会 使 用 共享 区 域 。 

即使 使 用 共享 区 域 ， 内 核 仍 然 需要 从 其 缓冲 区 向 网 络 接口 拷贝 数据 。U-Net 体 系 结构 [von 
Eicken et al. 1995] 人 允许 用 户 级 的 代码 直接 访问 网 络 接口 ， 因 此 使 用 户 级 的 代码 可 以 不 经 任何 拷贝 就 
能 把 数据 传输 到 网 络 。 

协议 的 选择 ”在 TCP 协 议 上 进行 请 求 一 应 答 交互 时 客户 所 经 历 的 延迟 并 不 一 定 比 运行 在 UDP 上 
的 长 ， 有 些 时 候 其 至 要 短 一 些 ， 特 别 是 传输 大 量 消息 的 时 候 。 然 而 ， 在 像 TCP 这 样 的 协议 之 上 实现 
请 求 一 应 答 交 互 必 须要 小 心 ， 因 为 这 些 协 议 并 不 是 专 为 此 目的 而 设计 的 。 特 别 是 TCP 的 缓冲 机 制 会 
妨害 其 性 能 ， 它 的 连接 开销 与 UDP 相 比 也 处 于 劣势 ， 除 非 在 一 个 连接 上 需要 传输 的 数据 量 相 当 大 ， 
这 样 才 可 以 忽略 连接 单个 请 求 的 开销 。 

在 Web 调 用 中 ，TCP 连 接 上 的 开销 特别 明显 ， 这 是 因为 HTTP 1.0 为 每 一 个 调用 建立 一 个 独立 
的 TCP 连 接 。 当 建立 连接 上 时， 客户 的 浏览 器 被 延迟 。 而 且 ，TCP 的 惕 启动 算法 延迟 了 HTTP 数 据 传 
输 ， 而 很 多 情况 下 这 是 不 必要 的 。 在 面 对 可 能 的 网 络 阻塞 时 ，TCP 慢 启动 算法 采用 一 种 翡 观 操作 ， 
即 在 接收 到 确认 前 ， 首 先 只 向 网 络 传输 一 个 小 窗口 的 数据 。Nielson 等 [1997] 讨 论 了 HTTP 1.1 怎 样 
使 用 持久 连接 ， 持 久 连 接 能 在 几 个 调用 过 程 内 持续 存在 。 只 要 对 同一 Web 服 务 器 有 多 个 调用 ， 初 
始 的 连接 开销 就 被 分 摊 在 几 个 调用 过 程 中 。 这 是 很 有 可 能 的 ， 因 为 用 户 经 常 从 同一 网 址 获得 多 个 
页 面 ， 而 每 个 页 面 可 能 包含 多 个 图 像 。 

Nielson 等 也 发 现 ， 修 改 操作 系统 的 默认 缓冲 行为 对 调用 延迟 有 显著 的 影响 。 比 较 好 的 机 制 是 
收集 多 个 比较 小 的 信息 ， 然 后 将 它们 一 起 发 送 ， 而 不 是 分 别 用 独立 的 包 将 其 发 送出 去 ， 因 为 每 一 
个 包 都 会 产生 上 面 所 描述 的 延迟 。 由 于 上 面 的 原因 ， 操 作 系 统 并 不 需要 在 每 一 次 套 接 字 的 writeO 调 
用 后 立即 将 数据 分 发 到 网 络 上 。 操 作 系统 在 默认 情况 下 应 该 等 待 缓冲 区 满 或 者 超时 之 后 才 将 数据 
分 发 到 网 络 上 。 

Nielson 等 发 现 ， 在 HTTP1.1 中 上 默认 的 操作 系统 缓冲 行为 会 因为 超时 而 产生 明显 的 不 必要 的 延 
迟 。 为 了 避免 这 种 延迟 ， 他 们 改变 了 内 核 的 TCP 设 置 ， 并 且 在 HTTP 请 求 边界 上 强制 进行 数据 分 发 。 
这 是 一 个 很 好 的 例子 ， 说 明了 操作 系统 的 实现 策略 是 如 何 帮助 或 阻碍 中 间 件 的 。 

在 一 个 计算 机 内 的 调用 ”Bershad 等 [1990] 进 行 的 一 项 研究 表明 ， 在 客户 一 服务 器 环境 中 ， 大 
多 数 跨 地 址 空间 的 调用 并 不 像 想象 的 那样 发 生 在 计算 机 之 间 ， 而 是 发 生 在 计算 机 内 部 。 将 服务 功 
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能 放置 在 用 户 级 服务 器 中 的 趋势 意味 着 有 更 多 的 调用 是 针对 本 地 进程 的 。 特 别 是 在 客户 所 需要 的 
数据 可 能 在 本 地 服务 器 上 的 情况 。 将 一 个 计算 机 内 的 RPC 开 销 作 为 系统 性 能 的 一 个 参数 已 经 变 得 
越 来 越 重要 。 这 些 都 表明 ， 计 算 机 内 的 调用 应 该 被 优化 。 

图 6-11 说 明 除 了 底层 的 消息 传递 在 本 地 进行 之 外 ， 在 一 个 计算 机 内 的 跨 地 址 空间 的 调用 和 在 
计算 机 间 的 调用 几乎 完全 一 样 。 实 际 上 ， 这 是 一 种 经 常 实 现 的 模型 。Bershad 等 [1990] 为 在 同一 机 
器 上 两 个 进程 之 间 的 调用 开发 了 一 种 更 有 效 的 机 制 ， 叫 做 轻 量 级 RPC(LRPC)。LRPC 的 设计 基于 数 
据 拷 贝 和 线程 调度 的 优化 。 

首先 ， 他 们 提出 利用 共享 内 存 区 域 为 客户 一 服务 器 提供 有 效 的 通信 ， 这 里 在 服务 器 和 每 个 本 
地 客户 之 间 使 用 不 同 (私有 ) 的 区 域 。 这 样 一 个 区 域 包含 一 个 或 多 个 A 栈 ( 见 图 6-13)。 在 这 种 设 
计 中 ， 客 户 和 服务 器 可 以 通过 A 栈 传 递 参数 和 返回 结果 ， 而 不 必 涉 及 在 内 核 和 用 户 地 址 空间 之 间 的 
RPC 参 数 的 拷贝 。 客 户 和 服务 器 存根 程序 也 采用 同样 的 栈 。 在 LRPC 中 ， 参 数 只 拷贝 一 次 ， 即 当 它 
被 编码 后 进入 A 栈 时 。 而 在 一 个 等 价 的 RPC 中 ， 数 据 被 拷贝 四 次 ， 分 别 为 从 客户 存根 程序 的 栈 中 措 
册 到 消息 中 ， 从 消息 拷贝 到 内 核 缓冲 区 ;从 内 核 缓冲 区 拷贝 到 服务 器 消息 中 ， 从 服务 器 消息 拷贝 
到 服务 器 存根 程序 的 栈 中 。 在 共享 区 域 中 可 能 有 数 个 A 栈 ， 因 为 在 同一 时 间 同 一 客户 上 会 有 多 个 线 
程 调用 服务 器 。 
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图 6-13 一 个 轻 量 级 远程 过 程 调用 


Bershad 等 也 考虑 到 线程 调度 的 开销 。 通 过 比较 图 6-11 中 的 系统 调用 和 远程 过 程 调用 ， 可 以 发 
现 : 当 发 生 一 个 系统 调用 时 ， 大 多 数 内 核 并 不 调度 一 个 新 的 线程 来 处 理 调 用 ， 而 是 在 调用 线程 中 
进行 一 次 上 下 文 切 换 ， 这 样 它 便 可 以 处 理 系统 调用 。 在 一 个 RPC 中 ， 一 个 远程 过 程 可 能 与 客户 的 
线程 在 不 同 的 计算 机 上 ， 这 样 服务 器 上 的 一 个 线程 必须 被 调度 来 执行 被 调用 的 过 程 。 然 而 ， 车 服 
务 器 和 客户 在 同一 台 机 器 上 ， 客 户 线程 ( 它 可 能 被 租 宏 ) 调用 在 服务 器 地 址 空间 内 的 过 程 ， 其 执 
行 效率 可 能 更 高 。 

在 这 种 情况 下 ， 服 务 器 程序 与 以 前 描述 过 的 服务 器 有 所 不 同 。 服 务 器 输出 一 系列 过 程 以 备 调 
用 ， 而 不 是 建立 一 个 或 多 个 线程 来 监听 端口 是 否 有 调用 请 求 。 当 本 地 进程 中 的 线程 开始 调用 服务 
器 输出 的 过 程 时 ， 它 们 就 可 进入 服务 器 的 执行 环境 。 需 要 调用 服务 器 操作 的 客户 必须 首先 绑 定 服 
务 器 的 接口 (没有 在 图 中 显示 )。 上 述 过 程 是 通过 内 核 通知 服务 器 的 。 当 服务 器 响应 内 核 并 提供 一 
系列 允许 访问 的 过 程 地 址 时 ， 内 核 便 允 许 客户 调用 服务 器 的 操作 。 

图 6-13 表 示 一 个 调用 。 客 户 端 线程 通过 首先 陷 人 内 核 来 进入 服务 器 的 执行 环境 。 内 核 检查 其 
合法 性 并 只 允许 上 下 文 切换 到 合法 的 服务 器 过 程 上 。 如 果 它 是 合法 的 ， 内 核 便 将 线程 的 上 下 文 转 
换 到 服务 器 执行 环境 中 被 调用 的 过 程 上 。 当 此 服务 器 中 的 过 程 运行 结束 并 返回 后 ， 线 程 便 回 到 内 
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核 ， 内 核 将 线程 转换 回 客户 执行 环境 。 需 要 注意 的 是 : 客户 和 服务 器 采用 存根 程序 来 对 应 用 程序 
员 隐 藏 其 细节 。 

对 LRPC 的 讨论 ”只 要 有 足够 的 调用 来 抵消 内 存 管理 的 开销 ， 在 本 机 上 ELRPC 比 RPC 的 效率 更 
高 这 一 点 是 无 可 置疑 的 。Bershad 等 统计 得 到 LRPC 的 延迟 比 本 地 RPC 的 延迟 小 1/3。 

Bershad 的 LRPC 实 现 并 没有 牺牲 位 置 透明 性 。 一 个 客户 存根 程序 在 绑 定 时 检查 其 记录 ， 判 断 
服务 器 是 在 本 地 还 是 在 远 端 ， 然 后 相应 地 选择 采用 LRPC 或 RPC。 应 用 程序 并 不 知道 使 用 的 是 
LRPC 还 是 RPC。 然 而 ， 当 一 个 资源 从 本 地 服务 器 转移 到 远程 服务 器 上 或 反之 ， 则 迁移 透明 性 将 很 
难 实现 ， 这 是 因为 需要 改变 调用 机 制 。 

在 随后 的 工作 中 ，Bershad 等 [1991] 描 述 了 几 种 改进 性 能 的 方法 ， 主 要 适用 于 多 处 理 器 操作 。 
其 改进 主要 注重 于 避免 陷 人 内 核 和 在 调度 进程 时 避免 不 必要 的 域 转换 。 例 如 ， 当 一 个 客户 线程 试 
图 调用 服务 器 过 程 时 ， 如 果 在 服务 器 的 内 存 管理 上 下 文中 有 一 个 处 理 器 是 空闲 的 ， 那 么 线程 应 该 
被 转移 到 此 处 理 器 上 。 这 种 方式 避免 了 域 转换 ， 同 时 ， 客 户 的 处 理 器 可 以 被 客户 的 其 他 线程 重用 。 
改进 还 包括 两 县 (用 户 和 内 核 ) 线程 调度 的 实现 ( 见 6.4 池 ) 。 


6.5.2 异步 操作 


我 们 已 经 讨论 了 操作 系统 如 何 帮助 中 间 件 层 来 提供 有 效 的 远程 调用 机 制 。 但 是 ， 我 们 也 观察 
到 ， 在 因特网 环境 中 长 延迟 、 低 带宽 和 高 服务 器 负载 的 影响 可 能 抵消 操作 系统 提供 的 好 处 。 我 们 
还 可 以 算 上 网 络 的 断 链 和 重新 连接 的 开销 ， 网 络 的 断 链 和 重新 连接 被 认为 是 造成 高 延迟 通信 的 原 
因 。 用 户 的 移动 计算 机 并 不 是 一 直 都 连接 在 网 络 上 的 。 即 使 使 用 广 域 无 线 访问 技术 (例如 ， 使 用 
GSM) ， 它 们 也 可 能 随时 断 链 ， 例 如 ， 当 他 们 乘坐 的 火车 进入 了 隧道 。 

异步 操作 是 应 付 高 延迟 的 一 种 常用 技术 。 它 在 两 种 编程 模型 中 出 现 : 并 发 调用 和 异步 调用 。 
这 些 模型 主要 出 现在 中 间 件 领域 ， 而 不 是 出 现在 操作 系统 内 核 设计 中 。 但 当 我 们 讨论 调用 性 能 时 ， 
还 是 应 该 考虑 到 异步 操作 的 作用 。 

使 调用 并 发 执行 在 第 一 个 模型 中 ， 中 间 件 只 提供 阻塞 型 调用 ， 但 应 用 程序 产生 多 个 线程 来 并 
发 执行 阻塞 型 调用 。 

Web 浏 览 器 是 这 种 应 用 一 个 很 好 的 例子 。 一 个 Web 页 面 通常 包含 多 个 图 像 。 浏 览 器 必须 为 每 个 
图 像 执 行 独立 的 HTTP GET 请 求 (因为 标准 的 HTTP 1.0 Web 浏 览 器 只 支持 对 单个 资源 的 请 求 ) 。 浏 
览 器 不 需要 按 特定 的 顺序 来 获得 这 些 图 像 ， 因 此 它 可 以 发 出 并 发 请 求 -一 通常 在 同一 时 间 内 最 多 可 
发 出 4 个 并 发 请 求 。 在 这 种 方式 下 ， 获 得 所 有 图 像 的 时 间 通 常 比 用 串 行 请 求 所 花 的 时 间 少 。 通 常情 
况 下 ,不 仅 总 道 信 延 迟 会 减少 ， 浏 览 器 也 可 以 将 通信 和 图 像 绘 制 并 行 执行 。 

图 6-14 表 示 了 这 种 在 一 个 客户 和 一 个 在 单 处 理 器 上 的 服务 器 间 交 错 调 用 (如 HTTP 请 求 ) 的 好 
处 。 在 串 行 的 情况 下 ， 客 户 将 参数 编码 并 调用 Send 操 作 ， 然 后 等 待 服务 器 的 应 答 。 服 务 器 执行 
Receive 操 作 ， 进 行 解码 并 处 理 结 果 。 在 此 之 后 ， 客 户 才能 执行 第 二 个 调用 。 

在 并 发 情况 下 ， 第 一 个 客户 线程 将 参数 编码 并 调用 Send 操 作 。 然 后 ， 第 二 个 线程 立即 执行 第 
二 个 调用 。 每 一 个 线程 等 待 接收 它 的 调用 结果 。 如 图 所 示 ， 并 发 调用 的 总 时 间 一 般 低 于 串 行 调用 。 
类 似 地 ， 当 客户 线程 对 多 个 服务 器 发 生 并 发 请 求 时 也 能 减少 总 调用 时 间 。 如 果 客 户 在 多 处 理 器 上 
执行 ， 则 可 能 获得 更 大 的 吞吐 量 ， 这 是 因为 两 个 线程 的 处 理 可 以 并 行进 行 。 

回 到 HTTP 的 例子 ， 前 面 所 介绍 的 Nielson 等 [1997] 也 研究 了 在 持久 连接 上 并 发 执行 HTTP 1.1 调 
用 (他们 称 为 管道 ) 的 结果 。 他 们 发 现 ， 只 要 操作 系统 为 刷新 缓冲 区 提供 合适 的 接口 ， 管 道 可 以 
减少 网 络 流量 并 能 提高 客户 性 能 。 

异步 调用 异步 调用 是 对 调用 者 调用 的 一 次 异步 执行 。 也 就 是 说 , 调用 者 进行 的 是 非 阻塞 调用 ， 
只 要 创建 了 调用 请 求 信息 并 准备 发 送 ， 调 用 便 结 束 了 。 

有 些 时 候 ， 客 户 不 需要 任何 回复 (除了 需要 故障 信息 ， 如 目标 主机 连接 不 上 等 ) ， 例 如 ， 
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CORBA 单 向 调用 包含 或 许 语 义 。 否 则 ， 客 户 使 用 单独 的 调用 来 收集 调用 结果 。 例 如 ，Mercury 通 
信 系统 [Liskov and Shrira 1988] 支 持 异 步调 用 。 一 个 异步 操作 返回 一 个 叫做 promise 的 对 象 。 最 后 ， 
当 调 用 成 功 或 注定 要 失败 时 ，Mercury 系 统 将 系统 状态 和 返回 值 放 在 promise 里 。 调 用 者 使 用 claim 
操作 从 promise 中 获得 结果 。claim 操 作 一 直 被 阻塞 到 promise 准 备 好 ， 由 promise 返 回调 用 的 结果 或 
异常 信息 。ready 操 作 可 以 不 阻塞 地 测试 promise 一 一 它 根据 promise 的 状态 为 就 绪 或 阻塞 状态 分 别 返 
回 true 或 false。 
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图 6-14 串 行 调用 和 并 发 调用 的 时 间 


持久 异步 调用 像 Mercury 调 用 和 CORBA 单 向 调用 这 种 传统 异步 调用 机 制 是 在 TCP 流 上 实现 
的 。 当 TCP 连 接 中 断 时 ， 例 如 网 络 连 接 中 断 或 目标 主机 崩溃 ， 调 用 就 会 失败 。 

断 链 操作 使 得 称 为 持久 异步 调用 的 改进 异步 调用 模型 变 得 更 加 有 意义 。 就 所 提供 的 操作 而 言 ， 
该 模型 与 Mercury 相 似 ， 它 们 的 不 同 在 错误 语义 上 。 一 个 传统 的 调用 机 制 (同步 或 异步 ) 被 设计 成 
在 超过 给 定 的 超时 时 间 后 就 会 失败 。 但 是 这 些 短期 的 超时 经 常 不 能 适应 连接 中 断 或 长 延迟 的 情况 。 

持久 异步 调用 系统 试图 无 限 地 执行 调用 ， 直 到 它 知道 调用 成 功 或 失败 ， 或 者 应 用 程序 取消 
调用 为 止 。 其 中 一 个 例子 是 用 于 移动 信息 访问 的 Rover 工具 集中 的 QRPC (排队 的 RPC) [Joseph 
et al. 1997]。 

顾名思义 ， 当 没有 网 络 连 接 时 ，QRPC 将 调用 请 求 排队 在 固定 的 日 志 中 ， 当 网 络 连接 建立 时 ， 
它 调度 并 发 送 请 求 给 服务 器 。 类 似 地 ， 它 将 服务 器 的 返回 结果 排队 并 放置 在 我 们 所 认为 的 客户 调 
用 “邮箱 ”中 ， 直 到 客户 重新 连接 服务 器 并 收集 结果 为 止 。 请 求 和 返回 结果 在 排队 时 可 能 被 压缩 ， 
这 样 它们 可 以 在 低 带 宽 的 网 络 上 传输 。 

QRPC 可 以 利用 不 同 的 通信 链 路 发 送 调用 请 求 和 接收 应 答 。 例 如 ， 当 用 户 在 路 上 时 ， 其 调用 请 
求 可 以 通过 GSM 发 送 ， 但 当 用 户 将 他 的 设备 连接 在 企业 内 部 因特网 上 时 ， 其 调用 应 答 可 能 通过 以 
太 网 发 送 。 原 则 上 ， 调 用 系统 可 以 在 靠近 用 户 的 下 一 个 可 能 的 接 入 点 存储 调用 结果 。 

客户 网 络 调度 器 可 以 依照 不 同 的 标准 操作 ， 而 没有 必要 依照 FIFO 的 顺序 来 发 送 调用 。 应 用 程 
序 可 以 为 单个 调用 赋予 优先 级 。 当 有 可 利用 的 连接 时 ，QRPC 评 估 其 带宽 和 使 用 它 的 开销 。 它 首先 
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发 送 高 优先 级 的 调用 请 求 ， 但 在 连接 速度 很 惕 并 且 开 销 大 (例如 广 域 无 线 连接 ) 的 情况 下 ， 它 不 
会 发 送 所 有 的 调用 一 一 它 假设 在 不 入 的 将 来 有 像 以 太 网 这 样 更 快 更 廉价 的 网 络 连 接 可 被 利用 。 类 似 
地 ， 当 QRPC 从 低 带宽 连接 的 邮箱 上 获取 调用 结果 时 ， 它 也 会 考虑 优先 级 。 
”在 异步 调用 系统 (持久 或 其 他 ) 的 编程 中 有 如 下 问题 : 在 调用 结果 未 知 的 情况 下 ， 用 户 如 何在 
客户 设备 上 继续 使 用 其 应 用 程序 。 例 如 , 用 户 可 能 想 知 道 是 否 成 功 地 更 新 了 共享 文档 中 的 一 个 段落 ， 
还 是 另 一 个 用 户 同时 进行 了 一 次 有 冲突 的 更 新 ， 如 删除 了 这 一 段落 。 第 15 章 将 讨论 这 一 问题 。 
6.6 操作 系统 的 体系 结构 

本 节 将 讨论 适用 于 分 布 式 系统 的 内 核 结构 。 我 们 采用 第 一 原则 方法 ， 首 先 从 开放 性 的 需求 出 
发 讨论 已 有 的 主要 的 内 核 体系 结构 。 

一 个 开放 的 分 布 式 系统 应 该 达到 以 下 要 求 : 

。 在 每 台 计 算 机 上 仅 运 行 那些 在 系统 体系 结构 中 承担 特定 角色 的 系统 软件 。 对 系统 软件 的 需 

求 可 能 会 不 尽 相同 ， 例 如 个 人 数字 助理 和 专门 的 服务 器 计算 机 对 系统 软件 的 需求 就 会 不 同 。 

而 载 入 多 余 的 模块 会 浪费 内 存 资源 。 

。 人 允许 实现 特定 服务 的 软件 (和 计算 机 ) 能 独立 于 其 他 部 分 而 被 更 换 。 

。 当 需要 适应 不 同 用 户 或 应 用 时 ， 人 允许 提供 同一 服务 的 不 同 实现 。 

。 在 不 破坏 已 有 系统 的 一 致 性 的 情况 下 加 入 新 的 服务 。 

从 资源 管理 策略 中 分 离 固定 资源 管理 机 制 的 方法 ( 它 随 着 应 用 程序 和 服务 的 不 同 而 不 同 ) 已 
经 在 很 长 一 段 时 间 内 成 为 操作 系统 设计 的 指导 原则 [Wulf et al. 1974]。 例 如 ， 我 们 说 一 个 理想 的 调 
度 系统 应 提供 如 下 机 制 : 系统 既 要 使 用 一 个 像 视频 会 议 这 样 的 多 媒体 应 用 程序 来 满足 实时 需求 ， 
也 要 支持 像 Web 浏 览 这 样 的 非 实时 应 用 程序 。 

理想 情况 下 ， 内 核 应 该 只 提供 在 一 个 节点 上 实现 通用 资源 管理 任务 的 最 基本 机 制 。 服 务 器 模 
块 应 按 需 动态 装载 ， 以 便 为 当前 运行 的 应 用 实现 所 需 的 资源 管理 。 

整体 内 核 和 微 内 核 内核 设计 有 两 个 主要 例子 ， 整体 内 核 和 微 内 核 。 这 两 种 设计 之 间 主 要 的 区 别 在 
于 : 如 何 决定 哪些 功能 属于 内 核 和 哪些 功能 属于 服务 器 进程 ， 其 中 服务 器 进程 可 以 在 运行 时 动态 载 入 这 
些 功 能 。 尽 管 微 内 核 没 有 被 广泛 应 用 ， 但 理解 它们 与 当前 一 般 内 核 相 比 的 优点 和 缺点 仍然 是 有 益 的 。 

UNIX 操 作 系统 内 核 被 称 为 整体 内 核 ( 见 下 面 的 定义 ) 。 这 一 名 称 说 明了 其 内 核 的 巨大 : 它 具 
有 所 有 的 基本 操作 系统 功能 ， 其 代码 和 数据 量 达到 上 兆 字 节 ， 并 且 它 是 未 分 化 的 ， 即 它 以 非 模块 
方式 编码 。 这 在 很 大 程度 上 导致 它 是 难于 管理 的 ， 因 为 为 变化 的 需求 改变 单个 软件 组 件 将 会 很 困 
难 。Sprite 网 络 操作 系统 是 另 一 个 整体 内 核 的 例子 [Ousterhout et al. 1988]。 一 个 整体 内 核 可 以 包含 
在 其 地 址 空间 内 执行 的 若干 服务 进程 ， 其 中 包括 文件 服务 和 一 些 网 络 进程 。 这 些 进程 执行 的 代码 
是 标准 内 核 配 置 的 一 部 分 ( 见 图 6-15)。 
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图 6-15 整体 内 核 和 微 内 核 
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整体 Chambers 20th Century Dictionary 为 monolith 和 monolithic 给 出 了 如 下 定义 : 
monolith， 名 词 ， 由 一 块 石 头 构 成 的 柱子 或 圆柱 ， 任 何 像 整 体 的 事物 都 是 一 致 的 、 大 块 的 或 难 
管理 的 。 一 形容 词 。monolithic 属 于 或 像 一 个 整体 ， et 大 块 的， 并 
且 全 体 一 致 ， 因 此 而 难于 管理 。 


相反 ， 在 微 内 核 的 设计 中 ， 内 核 只 提供 最 基本 的 抽象 ， 主 要 为 地 址 空间 ， 线 程 和 本 地 进程 间 
通信 。 所 有 其 他 系统 服务 由 服务 器 提供 ， 这 些 服务 在 分 布 式 系统 需要 它们 的 时 候 才 动态 加 载 到 计 
算 机 上 (参见 图 6-15)。 客 户 使 用 内 核 提供 的 基于 消息 的 调用 机 制 来 访问 这 些 系统 服务 。 

我 们 说 过 ， 用 户 不 会 接受 不 能 运行 它们 应 用 程序 的 操作 系统 。 但 除了 扩展 性 之 外 ， 微 内 核 设 
计 者 还 有 其 他 目标 : 像 UNIX 这 样 的 标准 操作 系统 的 三 进 制 模 似 [Armand et al. 1989，Golub et al. 
1990, Hiirtig et al. 1997]。 

图 6-16 给 出 了 微 内 核 (以 最 通用 的 形式 ) 在 整个 分 布 式 系 统 中 的 位 置 。 其 中 ， 微 内 核 为 在 硬件 层 
与 包含 主要 系统 组 件 的 子 系统 层 之 间 的 一 层 。 如 果 主 要 设计 目标 是 性 能 而 不 是 可 移植 性 ， 那 么 中 间 
件 可 以 直接 使 用 微 内 核 的 设施 。 否 则 ， 它 使 用 语言 运行 时 支持 子 系统 或 由 操作 系统 模拟 子 系统 提供 
的 高 层 操作 系统 接口 。 i 了 在 微 内 核 上 的 服务 器 实现 的 。 
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图 6-16 微 内 核 的 作用 


可 以 在 同一 底层 平台 之 上 给 程序 员 提供 多 个 系统 调用 接口 (多 个 “操作 系统 ”)。 一 个 例子 是 : 
在 Mach 分 布 式 操作 系统 内 核 上 实现 UNIX 和 0S/2 系 统 。 需 要 注意 的 是 ， 操 作 系 统 模拟 不 同 于 机 器 
虚拟 化 〈 稍 后 详 述 ) 。 

比较 ”基于 微 内 核 的 操作 系统 的 主要 好 处 是 它 的 可 伸缩 性 和 其 在 内 存 保护 边界 的 基础 上 增强 模 
块 化 的 能 力 。 另 外 ， 一 个 相对 小 的 内 核 的 缺陷 可 能 比 大 而 复杂 的 内 核 少 。 

整体 内 核 设计 在 操作 调用 方面 效率 相对 高 一 些 。 但 系统 调用 可 能 比 常规 的 过 程 操作 开销 大 ， 
其 至 在 使 用 了 我 们 前 面 介绍 过 的 技术 时 也 是 如 此 。 在 同一 节点 上 的 一 个 用 户 级 地 址 空间 上 调用 的 
开销 仍然 比较 大 。 

通过 使 用 像 分 层 (在 MULTICS[Organick1972] 中 使 用 ) 或 像 在 Choices[Campbell 等 1993] 中 使 
用 的 面向 对 象 设计 这 样 的 软件 工程 技术 可 以 避免 整体 内 核 设计 中 的 无 结构 性 。Windows 采 用 了 以 
上 两 种 方法 的 组 合 [Custer 1998]。 但 是 Windows 仍 然 是 “巨大 ”的 ， 并 且 其 大 多 数 功能 没有 被 设计 
为 可 替换 的 。 模 块 化 的 大 内 核 也 很 难 维护 ， 同 时 它 只 为 开放 的 分 布 式 系统 提供 有 限 的 支持 。 只 要 
模块 在 同一 地 址 空间 内 执行 ， 并 且 该 模块 是 用 C 或 C++ 语言 编译 为 高 效 代码 ， 并 允许 随意 的 数据 访 
问 ， 就 可 能 破坏 严格 的 模块 性 ， 因 为 程序 员 可 能 试图 使 用 一 种 更 高 效 的 实现 方法 ， 这 样 在 一 个 模 
块 的 缺陷 可 能 会 破坏 另 一 个 模块 的 数据 。 


虚拟 化 ”虚拟 化 是 指 将 多 个 虚拟 机 (虚拟 硬件 映像 ) 分 配给 同一 个 机 器 硬件 ， 每 一 个 虚拟 
机 运行 独立 的 操作 系统 实例 。 虚 拟 化 最 早出 现在 IBM 370 体系 结构 中 ， 它 的 VM 操 作 系 统 可 以 
将 同一 台电 脑 的 硬件 虚拟 为 若干 完整 的 虚拟 机 ， 而 且 不 同 的 程序 可 以 运行 在 不 同 的 虚拟 机 上 ， 
而 实际 上 这 些 程序 运行 在 同一 台电 脑 硬 件 上 。 最 近 ， 一 些 项 目 〈 例 如 ，Xen[Barham et al. 
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2003]) 为 普通 的 PC 机 开发 出 了 虚拟 机 监控 器 。 虚 拟 机 监控 器 是 一 个 位 于 机 器 硬件 同 常用 的 操 
作 系 统 (如 Linux 或 Windows ) 之 间 的 软件 层 。 它 允许 单 台 PC 机 同时 运行 多 个 任意 的 操作 系 
统 ， 而 且 这 些 操 作 系 统 不 需要 任何 改变 ， 虚 拟 机 监控 器 能 够 将 这 些 操 作 系统 隔离 ， 并 且 保 护 它 
们 以 免 互相 干扰 。PC 机 和 集群 中 的 节点 已 经 有 了 商业 的 实现 ， 例 如 VMWare ， 这 些 实现 可 以 
更 灵活 地 完成 分 配给 它们 的 工作 。 

















一 些 混合 的 方法 两 种 最 初 的 微 内 核 Mach[Acetta et al. 19861 和 Chorus[Rozier et al. 1990] 在 其 开 
发 周期 中 将 运行 的 服务 器 仅仅 作为 用 户 进程 。 它 们 通过 硬件 支持 的 地 址 空间 来 增加 模块 性 。 在 服务 
器 需要 直接 访问 硬件 的 地 方 ， 系 统 为 这 些 特权 进程 提供 了 特殊 的 系统 调用 ， 用 于 将 设备 寄存 器 和 组 
钟 区 映射 到 它们 的 地 址 空间 内 。 内 核 将 中 断 转换 为 消息 ， 这 样 使 用 户 级 服务 器 可 以 处 理 中 断 。 

因为 性 能 问题 ，Chorus 和 Mach 微 内 核 设计 最 终 允 许 服务 器 可 以 动态 地 加 载 到 内 核 地 址 空间 内 
或 用 户 级 地 址 空间 内 。 在 这 两 种 情况 中 ， 客 户 可 以 用 相同 的 进程 间 通 信 调 用 与 服务 器 交互 。 因 此 
开发 者 可 以 在 用 户 级 调试 服务 器 ， 同 时 ， 在 开发 完成 时 ， 为 了 优化 系统 性 能 ， 系 统 允 许 服务 器 在 
内 核 地 址 空间 内 运行 。 但 这 样 的 服务 器 程序 会 影响 系统 的 一 致 性 ， 因 为 它 可 能 包含 某 种 错误 。 

SPIN 操 作 系 统 [Bershad et al. 1995] 设 计 采 用 语言 保护 机 制 来 取得 效率 和 安全 性 的 折 中 。 其 中 ， 
内 核 和 所 有 动态 载 和 到 内 核 的 模块 在 一 个 地 址 空间 内 执行 。 但 是 它们 都 是 用 类 型 安全 的 语言 
[Modula-3] 编 号 的 ， 所 以 它们 相互 保护 。 内 核 地 址 空间 内 的 保护 域 是 使 用 被 保护 的 名 字 空间 来 建立 
的 。 除 非 具有 对 它 的 引用 ， 和 否则 进入 内 核 的 模块 是 不 能 访问 这 一 资源 的 。 同 时 ，Modula-3 限 制 了 
引用 只 能 用 来 执行 程序 员 人 允许 的 操作 。 

为 了 尽 可 能 减少 系统 模块 之 间 的 依赖 ，SPIN 系 统 的 设计 者 选择 了 一 个 基于 事件 的 模型 作为 进 
入 内 核 地 址 空间 内 模块 的 交互 机 制 〈( 见 5.4 节 对 基于 事件 的 编程 的 讨论 ) 。 系 统 定义 了 一 系列 核心 事 
件 ， 如 网 络 包 到 达 、 定 时 器 中 断 、 出 现 页 失 配 和 线程 状态 改变 等 。 系 统 组 件 将 自己 注册 为 这 些 事 
件 的 处 理 程序 。 例 如 ， 一 个 调度 器 可 以 将 自己 注册 为 一 个 处 理 程序 ， 用 于 处 理 与 那些 我 们 在 6.4 节 
讨论 过 的 调度 器 激活 相似 的 事件 。 

通过 像 Nemesis[Leslie et al. 1996] 这 样 的 操作 系统 ， 可 以 发 现 这 样 一 个 事实 ， 即使 在 硬件 级 ， 
一 个 地 址 空间 也 不 一 定 必 须 是 一 个 保护 域 。 内 核 和 所 有 动态 加 载 的 系统 模块 以 及 所 有 的 应 用 程序 
都 可 以 共存 在 单个 地 址 空间 内 。 当 地 址 空间 载 人 应 用 程序 时 ， 内 核 将 应 用 程序 的 代码 和 数据 放置 
在 运行 时 可 用 的 空间 内 。64 位 地 址 的 处 理 器 的 出 现 使 单 地址 空间 的 操作 系统 变 得 更 加 吸引 人 ， 这 
是 因为 它们 可 以 支持 很 大 的 地 址 空间 ， 其 中 可 以 容纳 许多 应 用 程序 。 

单 地 址 空间 操作 系统 的 内 核 在 其 地 址 空间 内 的 一 个 区 域 上 设置 保护 属性 来 限制 用 户 级 代码 的 
访问 。 用 户 级 代码 仍然 在 处 理 器 的 特定 的 保护 上 下 文中 运行 (由 处 理 器 和 内 存 管理 单元 中 的 设置 
决定 )， 它 给 了 代码 访问 本 区 域 的 完全 权限 和 特定 的 共享 其 他 区 域 的 权限 。 相对 于 多 地 址 空间 设计 ， 
单 地 址 空间 设计 节省 了 开销 ， 因 为 当 域 转换 时 ， 内 核 不 需要 刷新 任何 缓存 。 

最 近 一 些 内 核 设 计 ， 例 如 L4[Hirtig et al. 1997] 和 Exokernel[Kaashoek et al. 1997] 采 用 了 我 们 所 
描述 的 “ 微 内 核 ”方法 ， 但 也 包含 许多 与 此 机 制 相反 的 策略 。L4 是 “第 二 代 ” 微 内 核 设 计 ， 它 要 
求 动态 加 载 的 模块 在 用 户 级 地 址 空间 内 执行 ， 但 它 优化 了 进程 间 通 信 来 减少 上 述 策略 带 来 的 开销 。 
通过 将 地 址 空间 的 管理 委托 给 用 户 级 服务 器 ， 它 减少 了 内 核 的 复杂 性 。Exokernel 系 统 采用 了 一 种 
完全 不 同 的 方法 ， 它 采用 用 户 级 库 代 替 用 户 级 服务 器 来 提供 功能 扩展 。 它 提供 了 像 磁盘 块 这 样 极 
低级 资源 的 保护 性 分 配 ， 并 且 它 希望 其 他 资源 管理 功能 一 一 甚至 是 文件 系统 一 一 都 作为 库 连 接 到 应 
用 程序 上 。 

用 一 个 微 内 核 设计 者 [Liedtke 1996] 的 话说 :“ 微 内 核 的 发 展 过 程 充满 了 困难 和 绝境 ， 但 也 处 处 
体现 出 奇 思 妙 想 " 。 至 今 仍然 没有 一 个 全 面 评估 ， 用 于 评定 如 何 设计 -一 个 具有 充分 扩展 性 并 且 相 对 
于 整体 设计 具有 较 好 性 能 的 操作 系统 体系 结构 。 
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6.7 小 结 


本 章 介 绍 了 操作 系统 是 如 何 通过 提供 在 共享 资源 上 的 调用 来 支持 中 间 件 层 的 。 操 作 系 统 提供 
了 若干 机 制 ， 用 于 实现 满足 本 地 需求 及 技术 改进 的 多 种 资源 管理 策略 。 它 允许 服务 器 封装 和 保护 
资源 ， 同 时 允许 客户 并 发 地 共享 资源 。 它 提供 了 客户 调用 资源 上 的 操作 的 必要 机 制 。 

进程 由 执行 环境 和 线程 组 成 : 执行 环境 包括 地 址 空间 、 通 信 接 日 和 其 他 像 信号 量 这 样 的 本 地 
资源 ， 线 程 是 在 执行 环境 中 执行 的 活动 抽象 。 地 址 空间 必须 比较 大 并 且 是 稀疏 的 ， 以 便 支持 对 文 
件 这 样 的 对 象 的 共享 和 上 映射 访问 。 新 创建 的 地 址 空间 可 能 继承 了 其 父 进程 的 区 域 。 写 时 复制 是 一 
个 重要 的 区 域 拷贝 技术 。 

进程 可 以 拥有 多 个 线程 ， 这 些 线程 共享 进程 的 执行 环境 。 多 线程 进程 允许 我 们 利用 多 处 理 器 
并 行 的 优势 ， 以 较 低 的 代价 实现 并 发 。 这 对 客户 和 服务 器 都 很 有 用 。 最 近 的 线程 实现 允许 两 层 调 
度 : 用 户 级 代码 处 理 调度 策略 的 细节 ， 而 内 核 提供 对 多 处 理 器 的 访问 。 

操作 系统 为 经 由 共享 内 存 进行 的 通信 提供 了 基本 的 消息 传递 原 语 和 机 制 。 大 多 数 内 核 都 包含 
一 个 实现 网 络 通信 的 基本 设施 ， 其 他 内 核 只 提供 本 地 通信 并 将 网 络 通 信 功 能 交 给 服务 器 完成 ， 它 
可 以 实现 一 系列 的 通信 协议 。 这 是 在 性 能 和 灵活 性 之 间 的 一 种 折 中 。 

我 们 讨论 了 远程 调用 并 且说 明了 直接 来 源 于 网 络 硬件 的 开销 和 来 源 于 操作 系统 代码 执行 的 开 
销 之 间 的 区 别 。 我 们 发 现 ， 对 于 一 个 空调 用 而 言 ， 花 费 在 软件 上 的 时 间 相 对 比较 大 ， 但 当 调用 参 
数 的 字 节 数 增 大 时 其 时 间 占 总 时 间 的 比例 会 减 小 。 调 用 中 要 被 优化 的 主要 开销 来 源 于 编码 、 数 据 
拷贝 、 包 和 初始化、 线程 调 度 和 上 下 文 切 换 以 及 流 控制 协议 的 应 用 。 在 同一 计算 机 内 地 址 空间 之 间 
的 调用 是 一 个 重要 的 特例 ， 我 们 描述 了 在 轻 量 级 RPC 中 使 用 的 线程 管理 和 参数 传递 技术 。 

实现 内 核 体系 结构 有 两 种 主要 方法 : 整体 内 核 和 微 内 核 。 它 们 之 间 的 主要 区 别 在 于 是 由 内 核 
管理 资源 还 是 由 动态 载 入 (通常 是 用 户 级 ) 的 服务 器 来 管理 资源 。 微 内 核 至 少 要 支持 进程 和 进程 
间 通 信 。 它 支持 操作 系统 模拟 子 系统 、 语 言 支持 子 系统 和 其 他 像 实 时 处 理 这 样 的 子 系统 。 


练习 

6.1 在 UNIX 文 件 服 务 的 例子 中 (或 其 他 你 熟悉 的 例子 ) 讨论 封装 、 并 发 处 理 、 保 护 、 名 字 解 析 、 
参数 和 返回 结果 的 通信 以 及 调度 。 (第 224 页 ) 

6.2 为 什么 一 些 系统 接口 由 专门 的 系统 调用 (对 内 核 ) 实现 ， 而 其 他 一 些 系 统 接口 基于 消息 的 系 
统 调用 ? (第 224 页 ) 

6.3 史密斯 认为 在 他 的 进程 中 ， 每 个 线程 都 应 拥有 其 自己 的 保护 栈 ， 而 线程 的 其 他 区 域 必 须 被 完 
全 共享 。 这 样 做 有 意义 吗 ? (第 228 页 ) 

6.4 信号 (软件 中 断 ) 处 理 器 应 属于 进程 还 是 线程 ? (第 228 页 ) 

6.5 讨论 共享 内 存 区 域 的 命名 问题 。 (第 230 页 ) 


6.6 假设 要 设计 一 个 平衡 各 计算 机 负载 的 方案 ， 你 必须 考虑 如 下 问题 : 
1) 这 一 方案 能 满足 用 户 或 系统 的 哪些 需求 ? 
2) 它 能 适应 哪 一 种 类 型 的 应 用 程序 ? 
3) 怎样 度量 和 以 何 种 精确 程度 度量 负载 ? 
4) 假设 进程 不 能 迁移 ， 怎 样 监控 负载 和 为 新 的 进程 选择 地 点 ? 
如 果 进 程 能 在 计算 机 之 间 迁 移 ， 你 的 设计 将 受到 哪些 影响 ? 进程 迁移 的 开销 很 大 吗 ? 


(第 231 页 ) 
6.7 解释 在 UNIX 中 区 域 拷贝 用 写 时 复制 的 好 处 ， 其 中 在 一 个 exec 调 用 后 通常 是 一 个 fork 调 用 。 在 
使 用 写 时 复制 的 区 域 是 自我 复制 的 情况 下 会 发 生 什么 ? (第 233 页 ) 


6.8 一 个 文件 服务 器 使 用 缓存 ， 并 且 其 命中 率 为 80% 。 当 服务 器 在 缓存 中 查找 被 请 求 的 块 时 ， 服 
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务 器 中 的 文件 操作 要 花费 5ms 的 CPU 时 间 ， 否 则 它 还 要 再 花 15ms 用 于 磁盘 WO。 对 于 下 面 假设 
的 各 种 情况 ， 估 计 服 务 器 的 吞吐 量 (平均 请 求 / 秒 ): 


(1) 单线 程 。 

(2) 在 一 个 处 理 器 上 运行 的 两 个 线程 。 

(3) 在 两 个 处 理 器 计算 机 上 运行 的 两 个 线程 。 (第 234 页 ) 
比较 工作 池 多 线程 体系 结构 和 一 请 求 一 线程 体系 结构 。 (第 235 页 ) 
什么 样 的 线程 操作 开销 最 大 ? (第 237 页 ) 
spin 锁 ( 见 Bacon[1998]) 是 一 个 用 原子 性 的 测试 一 设置 指令 访问 的 布尔 变量 ， 它 用 于 实现 互 
斥 。 你 能 使 用 spin 锁 在 单 进程 的 计算 机 上 实现 线程 间 的 互 斥 吗 ? (第 241 页 ) 
解释 内 核 应 为 用 户 级 线程 的 实现 提供 哪些 支持 ， 例 如 在 UNIX 中 的 Java。 (第 242 页 ) 
页 失 配 是 用 户 级 线程 实现 中 的 问题 吗 ? (第 242 页 ) 
解释 在 “调度 器 激活 ”设计 中 使 用 混合 调度 方法 (而 不 是 纯粹 的 用 户 级 或 内 核 级 调度 ) 的 原 
因 。 (第 243 页 ) 
为 什么 线程 包 会 对 线程 的 阻塞 或 解除 阻塞 事件 感 兴 趣 ? 为 什么 会 对 即将 被 抢占 的 虚拟 处 理 器 
感 兴趣 (提示 : 可 以 继续 分 配 其 他 虚拟 处 理 器 ) ? (第 244 页 ) 


网 络 传输 时 间 占 一 个 空 RPC 的 总 耗 时 的 20% ， 而 它 占 一 个 传输 1024 用 户 字 节 〈 小 于 一 个 网 络 
包 的 大 小 ) 的 RPC 的 总 耗 时 的 80%。 如 果 网 络 由 原来 的 10Mbps 升 级 到 100Mbps， 这 两 次 操作 
的 网 络 传输 时 间 将 改善 百 分 之 多 少 ? (第 247 页 ) 
一 个 “ 空 ”的 RMI 不 包含 参数 ， 它 调用 一 个 空 过 程 并 不 返回 结果 ， 其 延迟 为 2ms。 请 解释 导 
致 延迟 的 原因 。 

在 同一 个 RMI 系 统 中 ， 每 1K 的 用 户 数 据 会 增加 1.5ms 延 迟 。 一 个 客户 希望 从 文件 服务 器 
获取 32KB 的 数据 ， 它 应 该 使 用 一 个 32KB 的 RMI 还 是 应 该 使 用 32 个 1KB 的 RMI? ”( 第 247 页 ) 


影响 远程 调用 的 哪些 因素 会 影响 消息 传递 ? (第 249 页 ) 
请 解释 共享 区 域 是 如 何 应 用 于 进程 读 取 内 核 写 的 数据 的 。 你 的 解释 应 包括 实现 同步 的 必要 机 
制 。 (第 250 页 ) 


(1) 轻 量 级 过 程 调用 的 服务 器 能 控制 其 中 的 并 发 度 吗 ? 
(2) 请 解释 在 轻 量 级 RPC 中 为 什么 客户 不 允许 调用 服务 器 内 的 任何 代码 。 
(3) LRPC 是 不 是 比 传统 的 RPC (假设 是 共享 内 存 的 ) 具有 交互 干扰 的 风险 更 大 ? (第 251 页 ) 
一 个 客户 对 一 个 服务 器 进行 RMI 调 用 。 客 户 需要 5ms 对 每 一 个 请 求 进行 参数 计算 ， 并 且 服 务 
器 要 花费 10ms 处 理 每 一 个 请 求 。 每 一 个 send 和 receive 操 作 的 OS 处 理 时 间 是 0.5ms， 同 时 传输 
每 一 个 请 求 或 应 答 消 息 的 时 间 是 3ms。 每 个 消息 的 编码 或 解码 时 间 是 0.5ms。 

在 如 下 情况 下 ， 请 估计 客户 产生 两 个 请 求 并 返回 结果 的 时 间 ，(1) 单线 程 ， (2) 在 单个 
处 理 器 上 有 两 个 线程 ， 它 们 并 发 地 发 出 请 求 。 如 果 进 程 是 多 线程 的 ， 系 统 需要 使 用 异步 RMI 


吗 ? (第 253 页 ) 
请 解释 什么 是 安全 性 策略 ， 在 像 UNIX 这 样 的 多 用 户 操作 系统 中 ， 相 对 应 的 是 什么 机 制 ? 


(第 256 页 ) 
请 解释 当 服 务 器 动态 载 入 内核 地 址 空间 内 时 ， 程 序 必须 要 满足 的 的 连接 要 求 ， 并 说 明 这 种 情 
形 与 在 用 户 级 执行 服务 器 的 区 别 。 (第 257 页 ) 
中 断 是 怎样 与 用 户 级 服务 器 通信 的 ? (第 259 页 ) 
在 某 个 计算 机 上 ， 我 们 预计 : 不 管 其 运行 哪 种 OS ， 线 程 调 度 花费 5S0ks ， 一 个 空 过 程 调 用 花 
费 Ims， 上 下 文 切换 到 内 核 花费 20ks， 一 个 域 转换 花费 40ks。 在 使 用 Mach 和 SPIN 操 作 系统 
的 情况 下 , 请 估计 客户 调用 动态 载 和 的 空 过 程 的 开销 。 (第 259 页 ) 





第 7 章 安 全 性 


在 分 布 式 系 统 中 ， 资 源 的 私密 性 、 完 整 性 以 及 可 用 性 都 需要 有 相应 的 措施 加 以 保证 。 安 全 性 
攻击 会 采取 窃听 、 擅 装 、 自 改 和 拒绝 服务 等 形式 。 安 全 的 分 布 式 系统 的 设计 者 们 必须 在 攻击 者 可 
能 了 解 系统 所 使 用 的 算法 和 部 署 计 算 资 源 的 环境 下 解决 暴露 的 服务 接口 和 不 安全 的 网 络 所 引发 的 
问题 。 

密码 学 为 保证 消息 的 私密 性 和 完整 性 以 及 消息 认证 莫 定 了 基础 。 为 使 密码 学 得 以 应 用 ， 需 要 
有 和 精心 设计 的 安全 性 协议 。 加 窗 算法 的 选择 和 密 钥 的 管理 是 安全 机 制 的 效率 、 性 能 和 可 用 性 的 关 
键 。 公 钥 加 密 算法 使 得 分 发 密 钥 比较 容易 ， 但 对 大 数据 量 数据 的 加 密 而 言 其 性 能 不 够 理想 。 相 比 
之 下 ， 密 钥 加 密 算 法 更 适合 大 批 的 加 密 任务 。 混 合 型 协议 ,例如 TLS (传输 层 安全 ) 用 公 钥 加 密 先 
建立 一 个 安全 通道 ， 然 后 使 用 通道 交换 密 钥 ， 并 将 此 密 钥 用 于 后 续 的 数据 交换 。 

可 为 数字 信息 签名 ， 生 成 数字 证 书 。 通 过 数字 证 书 ， 可 以 使 用 户 和 组 织 建立 起 互相 信任 。 


7.1 简介 


在 2.3.3 节 中 ， 我 们 曾经 给 出 过 一 个 简单 的 模型 用 于 解释 分 布 式 系统 对 于 安全 性 的 需求 。 我 们 
总 结 出 ， 分 布 式 系 统 对 安全 机 制 的 需求 源 自 共享 资源 的 需求 。( 对 于 不 需要 共享 的 资源 ， 通 常 需要 
将 它们 同 外 部 访问 隔离 开 。) 如 果 我 们 将 共享 资源 也 看 作对 象 ， 那 么 任何 封装 了 共享 对 象 的 进程 都 
要 受到 保护 ， 而 且 它 们 之 间 进 行 交互 的 通信 信道 也 应 当 受 到 保护 ， 以 避免 可 预料 的 任何 形式 的 攻 
击 。2.3.3 节 中 介绍 的 模型 有 利于 理解 安全 需求 ， 总 结 如 下 : 

。 进 程 封装 了 资源 (包括 程序 语言 层 的 对 象 和 系统 定义 的 资源 ) ， 并 且 人 允许 客户 通过 接口 访问 

这 些 资源 。 已 授权 的 主体 〈 用 户 或 进程 ) 可 以 操作 这 些 资源 ， 而 资源 必须 被 保护 以 避免 未 授 

权 的 访问 〈 见 图 2-13 ) 。 

。 进 程 通过 多 用 户 共享 的 网 络 进行 交互 。 敌 人 (攻击 者 ) 也 可 以 访问 这 个 网 络 ， 它 们 能 够 复制 

或 者 尝试 读 取 任何 在 网 络 中 传输 的 消息 ， 也 可 以 向 网 络 中 插入 任何 的 消息 ， 这 些 欺 骗 性 的 消 

息 可 以 被 发 送 到 网 络 上 的 任何 地 方 ， 并 且 谎 称 它们 来 自 于 其 他 地 方 〈 见 图 2-14) 。 

无 论 是 在 数字 世界 里 还 是 在 物理 世界 里 ， 无 论 是 信人 还 是 组 织 ， 对 信息 和 资源 的 私密 性 和 完 
整 性 的 需求 是 广泛 存在 的 。 这 种 需求 源 于 对 共享 资源 的 期 望 。 在 物理 世界 中 ， 组 织 采用 安全 策略 ， 
在 指定 范围 内 允许 资源 的 共享 。 例 如 ， 某 公司 只 允许 公司 的 职员 以 及 受信 赖 的 访问 者 进入 办 公 大 
楼 ， 而 文档 的 安全 策略 可 以 规定 某 些 工作 组 的 成 员 可 以 访问 指定 类 的 文件 。 也 可 以 针对 单个 文件 
和 用 户 制定 安全 策略 。 

安全 策略 通过 安全 机 制 执行 。 例 如 ， 某 人 是 否 允许 进入 办 公 大 楼 可 以 由 接待 员 来 决定 ， 他 给 
受信 赖 的 访问 者 派发 通行 证 ， 再 由 保安 人 员 或 者 电子 门 锁 来 验证 谁 能 进入 大 楼 。 对 纸 质 文档 的 访 
问 ， 通 常 可 以 采用 加 密 和 限制 性 地 发 送 等 手段 来 控制 。 在 电子 世界 中 ， 安 全 策略 和 安全 机 制 的 区 
别 同样 重要 ， 没 有 它 ， 就 很 难 判 断 一 个 系统 是 否 安全 。 安 全 策略 和 所 使 用 的 技术 无 关 ， 就 像 在 门 
上 装 锁 ， 这 并 不 能 确保 办 公 大 楼 的 安全 ， 除 非 为 它 的 使 用 制订 一 些 策略 (例如 ， 当 没有 人 在 入 口 
处 守卫 的 时 候 ， 门 就 会 被 锁 上 ) 。 我 们 所 描述 的 安全 机 制 本 身 并 不 能 保证 系统 的 安全 。 在 7.1.2 节 ， 
我 们 将 概述 各 种 简单 的 电子 商务 场景 中 的 安全 需求 ， 并 说 明 每 个 环境 中 需要 的 安全 策略 。 

本 章 的 重点 是 分 布 式 系统 中 数据 和 其 他 资源 的 保护 机 制 ， 这 种 保护 机 制 允 许 计 算 机 在 安全 策 
略 许可 的 范围 内 进行 交互 。 这 些 机 制 用 来 实施 安全 策略 以 应 付 大 部 分 已 确定 的 攻击 。 
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密码 学 的 任务 ”数字 密码 学 为 大 多 数 计算 机 安全 机 制 葛 定 了 基础 ， 但 是 注意 下 面 这 一 点 很 重 
要 ， 即 计算 机 安全 同 密码 学 是 两 个 不 同 的 主题 。 密 码 学 是 信息 编码 的 艺术 ， 它 通过 一 些 特定 的 格 
式 ， 仅 允许 特定 的 接收 者 访问 。 类 似 于 传统 交易 中 的 签名 ， 密 码 学 也 可 以 用 来 验证 信息 的 真实 性 。 

密码 学 有 一 段 悠久 的 耐人寻味 的 历史 。 军 方 对 安全 通信 的 需求 以 及 截获 并 解密 敌人 信息 的 需 
求 ， 使 得 当时 一 些 杰 出 的 数学 家 为 此 花费 了 大 量 的 精力 。 读 者 如 果 对 这 段 历史 感 兴趣 ， 可 以 参阅 
由 David Kahn[Kahn 1967,1983,1991] 和 Simon Singh[Singh 1999] 所 编写 的 著作 。Wihitfield Diffie， 
公 钥 加 密 的 发 明 人 之 一 ， 用 第 一 手 的 信息 记录 了 近代 密码 学 的 历史 和 加 密 策略 [Diffie 1988, Diffie 
and Landau 1998] 。 

以 前 ， 政 治 军事 组 织 控制 密码 学 的 发 展 和 使 用 。 直 到 最 近 ， 密 码 学 才 被 真正 地 解放 。 现 在 ， 
它 成 为 一 个 大 型 、 活 跃 的 研究 团体 中 一 个 开放 的 研究 课题 。 研 究 结果 也 相继 在 各 种 书籍 、 杂 志和 
会 议 上 发 表 。Schneier 的 《应 用 密码 学 》9S[1996] 的 出 版 成 为 开放 该 领域 知识 的 一 个 里 程 碑 。 这 是 
第 一 本 包括 了 很 多 重要 算法 且 附 带 源 码 的 著作 ， 这 也 是 勇敢 的 一 步 。 在 现代 密码 学 的 大 多 数 领域 ， 
Schneier 的 书 具 有 相当 的 权威 性 。Schneier 与 他 人 合 著 的 新 书 [Ferguson and Schneier 2003] 中 对 计算 
机 密码 学 进行 了 精彩 的 介绍 ， 其 中 讨论 了 目前 使 用 的 所 有 的 重要 的 算法 和 技术 ， 其 中 有 些 算法 和 
技术 在 Schneier 早 年 的 著作 中 有 所 涉及 。 此 外 ，Menezes 等 人 [1997] 也 出 版 了 一 本 有 很 强 理论 基础 
的 实用 性 手册 Network Security Library (网 络 安全 库 ) [www.secinf.net] 是 有 关 实 践 知识 和 经 验 的 一 
个 很 出 色 的 在 线 资源 。 

Ross Anderson 的 “Security Engineering”[Anderson 2001] 也 是 一 本 很 出 色 的 书 ， 其 中 有 丰富 
的 从 现实 世界 的 情况 和 系统 安全 故障 中 得 出 的 系统 安全 设计 的 实例 。 

密码 学 的 非 军事 应 用 和 分 布 式 计算 机 系统 对 安全 性 的 需求 的 巨大 增长 在 很 大 程度 上 推进 了 密 
码 学 的 开放 性 。 于 是 ， 在 军事 领域 以 外 的 第 一 个 自主 的 密码 学 研究 团体 应 运 而 生 。 

密码 党 对 公众 开放 并 允许 公众 使 用 以 来 ， 密 码 技术 得 到 了 突飞猛进 的 发 展 ， 不 仅 体现 在 对 抗 
敌人 的 攻击 能 力 方面 ， 而 且 体 现在 密码 技术 部 署 的 方便 性 上 。 公 钥 密码 学 就 是 密码 技术 开放 以 后 
获得 的 成 果 之 一 。 再 举 一 个 例子 ，DES 标 准 加 密 算法 最 初 是 一 个 军事 秘密 ， 只 能 由 美国 军 方 和 政 
府 部 门 应 用 ， 但 当 它 最 终 公 布 并 被 成 功 地 破解 之 





后 ， 反 而 促进 了 密码 学 的 发 展 ， 产 生出 更 多 更 强 有 [ic 第 一 参加 才 
力 的 密 钥 加 密 算法 。 Bob 第 二 参加 者 
另 一 个 进步 是 使 常见 术语 和 方法 得 到 发 展 。 Carol 三 方 或 四 方 协议 的 参加 者 
例如 ， 为 一 个 受 保护 的 事务 中 的 角色 (主体 ) 选取 。 | Deve 下方 协 议 的 大 加 者 
一 组 娄 悉 的 名 字 。 为 主体 和 攻击 考 都 起 一 个 熟悉 的 | 让, 人 
名 字 ， 有 利 干 阐明 安全 协议 和 对 这 些 安全 协议 的 潜 。 | so 一 个 服务 器 
在 攻击 ， 这 是 识别 其 弱点 的 重要 一 步 。 图 7-1 中 显 
示 的 名 字 在 安全 文献 中 广 为 使 用 ， 我 们 在 书 中 也 将 图 7-1 为 安全 协议 中 的 角色 起 的 名 字 


使 用 这 些 名 字 。 我 们 还 不 知道 这 些 名 字 的 由 来 。 据 
我 们 所 知 ， 它 们 最 初出 现 于 RSA 公 钥 算法 的 论文 [Rivest et al. 1978] 中 。 对 于 它们 的 使 用 的 注释 ， 
请 参阅 Gordon[1984]。 
7.1.1 威胁 和 攻击 

有 一 些 威胁 是 很 明显 的 。 例 如 ， 在 大 多 数 的 本 地 网 络 中 ， 可 以 很 容易 地 在 互 连 的 计算 机 上 构 
造 并 运行 一 个 程序 ， 用 于 获得 在 其 他 计算 机 间 传 递 的 消息 的 拷贝 。 另 一 些 威胁 则 较为 隐藏 ， 例 如 ， 
当 客户 不 能 认证 服务 器 时 ， 这 个 程序 就 安装 自己 ， 并 取代 真实 的 文件 服务 器 ， 从 而 获得 客户 发 送 


唱 ”该 书 已 由 机 械 工业 出 版 社 华章 分 社 引 进 并 翻译 出 版 ，ISBN: 7-111-07588-9/TP.1216. 一 一 编辑 注 





安 会 性 171 





的 机 密 信息 。 

除了 直接 破坏 而 导致 信息 和 资源 的 丢失 或 损坏 外 ， 攻 击 者 还 可 能 向 系统 拥有 者 做 出 系统 是 不 
安全 的 欺骗 性 声明 。 为 了 避免 这 些 欺骗 性 声明 ， 拥 有 者 必须 证 明 系 统 在 受到 攻击 后 仍然 是 安全 的 ， 
或 者 为 这 个 可 疑 时 期 中 的 每 个 事务 都 产生 一 个 日 志文 件 来 反 驶 这 些 声 明 。 一 个 常见 的 例子 就 是 自 
动 取款 机 上 的 “假象 提 款 ”问题 。 最 好 的 方法 就 是 银行 提供 一 个 由 账户 持 有 者 进行 了 数字 签名 的 
事务 记录 ， 而 第 三 方 无 法 伪造 出 这 个 签名 。 

安全 的 主要 目的 是 只 允许 获得 授权 的 主体 访问 信息 和 资源 。 安 全 威胁 一 般 可 以 分 为 三 大 类 ，; 

泄漏 一 一 未 经 授权 的 接收 方 获 得 了 信息 。 

基 改 一 未 经 授权 对 信息 进行 改动 。 

恶意 破坏 一 一 干扰 系统 的 正确 操作 ， 对 破坏 者 本 身 无 益 。 

对 分 布 式 系统 的 攻击 依赖 于 对 现 有 通信 通道 的 访问 或 者 伪装 成 授权 的 连接 来 建立 新 的 通道 。 
(我 们 用 术语 “通道 ”来 指 代 任何 进程 间 的 通信 机 制 。) 可 以 按照 恶意 使 用 通道 的 方式 ， 对 攻击 方 
法 进行 进一步 的 分 类 : 

窃听 一 一 未 经 授权 获得 消息 副本 。 

伪装 一 一 在 未 经 授权 的 情况 下 ， 用 其 他 主体 的 身份 收发 消息 。 

消息 得 改 一 一 在 将 消息 传递 给 接收 者 之 前 ， 截 获 并 修改 消息 的 内 容 。 中 间 人 攻击 就 是 一 种 消 
息 自 改 方式 ， 其 中 攻击 者 截获 了 密 钥 交 换 的 第 一 个 消息 来 建立 安全 通道 。 攻 击 者 替换 掉 发 送 方 与 
接收 方 达成 的 密 钥 ， 以 便 让 自己 可 以 对 后 继 消 息 进行 解密 ， 然 后 再 将 消息 用 正确 的 密 角 加密 后 ， 
传递 出 去 。 

二 发 存储 截获 的 信息 ， 并 稍 后 发 送 它们 。 这 种 攻击 甚至 对 已 认证 的 消息 和 加 密 消息 都 可 
能 有 效 。 

拒绝 服务 一 一 用 大 量 的 消息 使 通道 或 者 其 他 资源 瘫 疾 ， 使 得 其 他 访问 被 拒绝 。 

这 些 都 是 理论 上 存在 的 威胁 ， 但 实际 上 这 些 攻 击 是 怎样 实现 的 呢 ? 成 功 的 攻击 取决 于 发 现 系 
统 安全 方面 的 漏洞 。 遗 憾 的 是 ， 在 现 有 系统 中 普遍 存在 安全 漏洞 ， 有 的 甚至 很 明显 。Cheswick 和 
Bellovin[1994] 指 出 了 42 种 缺陷 ， 他 们 认为 这 些 在 广泛 使 用 的 因特网 系统 及 其 组 件 中 的 存在 的 缺陷 
会 带 来 很 大 的 风险 。 这 些 弱点 包括 从 口令 猜测 到 对 完成 网 络 时 间 协 议 或 处 理 邮件 传输 的 程序 的 攻 
击 。 其 中 有 些 已 经 成 为 人 们 所 熟知 的 攻击 入 口 点 [Stoll 1989，Spafford 1989]， 攻 击 者 会 通过 这 些 
入 口 点 进行 恶作剧 或 者 网 络 犯罪 。 

起 初 设计 因特网 和 与 其 相连 的 系统 时 ， 安 全 性 没有 被 充分 考虑 。 设 计 者 可 能 没有 想到 因特网 
会 发 展 成 如 此 规模 ， 而 且 像 UNIX 之 类 的 系统 的 基本 设计 也 先 于 计算 机 网 络 出 现 。 我 们 可 以 看 到 ， 
安全 手段 需要 在 基本 设计 阶段 就 被 仔细 的 考 虚 。 本 章 的 内 容 就 是 为 此 提供 一 些 基础 。 

我 们 已 经 注意 到 因为 暴露 通信 通道 和 接口 而 对 分 布 式 系统 产生 的 种 种 威胁 。 对 许多 系统 而 言 ， 
只 需要 考虑 这 些 威胁 (人 为 错误 引起 的 威胁 不 在 考虑 之 列 ， 因 为 安全 机 制 并 不 能 防止 用 户 使 用 非 
常 简单 易 猜 的 口令 或 者 用 户 粗 心 泄漏 口令 而 造成 的 威胁 ) 。 对 于 包含 移动 程序 的 系统 和 其 安全 性 对 
信息 泄漏 特别 敏感 的 系统 ， 还 存在 其 他 威胁 。 

对 移动 代码 的 威胁 最 近 开 发 的 一 些 程序 设计 语言 允许 程序 从 远程 服务 器 中 下 载 到 -一个 进程 中 ， 
并 在 本 地 执行 。 在 这 种 情况 下 ， 执 行进 程 中 的 内 部 接口 和 对 象 都 暴露 在 移动 代码 的 攻击 范围 内 了 。 

Java 是 这 种 类 型 的 语言 中 使 用 最 广泛 的 。 为 了 限制 这 种 暴露 ， 设 计 者 也 仔细 考虑 过 语言 的 设计 
和 构造 ， 以 及 远程 下 载 机 制 ( 沙 金 模型 就 是 用 于 对 付 移动 代码 的 ) 。 

Java 虚 拟 机 (JVM) 在 设计 的 时 候 就 考虑 到 了 移动 代码 。 它 给 每 个 应 用 分 配 各 自 独立 的 运行 的 
环境 。 每 个 环境 都 有 一 个 安全 管理 器 ， 用 于 决定 哪些 资源 对 于 该 应 用 来 说 是 可 用 的 。 例 如 ， 安 全 
管理 器 会 终止 应 用 的 读 写 文件 操作 或 限制 程序 对 网 络 的 访问 。 一 旦 设置 了 网 络 管理 器 ， 它 就 不 能 
被 替换 。 当 用 户 运行 一 个 程序 (如 浏览 器 下 载 移动 代码 用 于 本 地 运行 ) 时 ， 确 实 不 能 保证 这 些 移 
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动 代码 会 可 靠 地 执行 。 实 际 上 ， 会 存在 下 载 并 运行 恶意 代码 的 风险 ， 这 些 恶 意 代码 会 删除 文件 或 
访 间 私 人 信息 。 为 了 保护 用 户 免 受 这 些 不 可 信人 代码 的 攻击 ， 大 部 分 浏览 器 都 限定 applets 不 能 访问 
本 地 文件 、 打 印 机 和 人 网络 套 接 字 。 一 些 使 用 移动 代码 的 应 用 能 在 下 载 的 代码 中 设置 多 种 信任 级 别 。 
这 样 ， 安 全 管理 器 就 允许 移动 代码 访问 更 多 的 本 地 资源 。 

为 保护 本 地 环境 ，JVM 提 供 了 下 面 两 个 手段 : 

1) 下 载 的 类 和 本 地 的 类 分 开 保存 ， 防 止 用 假冒 的 版 本 来 替换 本 地 的 类 。 

2) 检验 字 节 码 以 验证 其 有 效 性 。 有 效 的 Java 字 节 码 由 一 组 来 自 指定 集合 的 Java 虚 拟 机 指令 组 
成 。 这 些 指 令 也 会 被 检验 ， 以 保证 程序 执行 的 时 候 不 会 发 生 某 些 错误 ， 如 访问 非法 的 内 存 地 址 。 

当 人 们 逐渐 意识 到 最 初 采用 的 安全 机 制 不 能 避免 漏洞 的 时 候 [McGraw and Felden 1999]，Java 
的 安全 性 就 成 为 许多 后 续 研 究 的 主题 。 这 使 得 被 发 现 的 漏洞 得 到 修补, Java 保 护 系 统 也 进行 了 修正 ， 
允许 移动 代码 在 获得 授权 时 访问 本 地 资源 [java.sun.com V]。 

尽管 包括 了 类 型 检查 和 代码 验证 机 制 ， 整 合 到 移动 代码 系统 中 的 安全 机 制 仍然 达 不 到 用 于 保 
护 通信 通道 和 接口 的 安全 机 制 所 能 达到 的 安全 级 别 。 这 时 因为 执行 程序 的 环境 为 错误 的 发 生 提 供 
了 很 多 机 会 ， 而 且 也 不 能 肯定 所 有 的 错误 都 能 被 避免 。Volpano 和 Smith[1999] 已 经 指出 一 个 相对 较 
好 的 解决 办 法 ， 该 方法 基于 移动 代码 的 行为 是 完备 的 证 明 。 

信息 泄漏 ”如 果 可 以 观测 到 两 个 进程 闻 的 消息 传递 ， 那 么 就 可 以 收集 到 一 些 信 息 ， 例 如 ， 如 
果 某 只 股票 有 大 量 交易 消息 表明 这 支 股 票 有 较 高 的 交易 率 。 还 有 许多 微妙 的 信息 港 漏 形式 ， 有 些 
是 恶意 的 而 有 些 则 源 于 下 忽 。 一 旦 观测 到 计算 结果 ， 则 潜在 的 泄漏 危险 就 会 增加 。 在 20 世 纪 70 年 
代 ， 人 们 就 开始 了 防止 这 类 安全 威胁 的 工作 [Denning and Denning 1977]。 所 采取 的 方法 是 为 信息 
和 通道 赋予 安全 等 级 ， 并 分 析 进 入 通道 中 的 信息 流 ， 以 保证 高 层 信 息 不 会 流入 低层 通道 。Bell 和 
LaPadula[1975] 率 先 描述 了 信息 流 的 安全 控制 方法 。 最 近 一 些 研究 主题 是 用 组 件 之 间 的 互 不 信任 关 
系 将 这 种 方法 扩展 到 分 布 式 系统 [Myers and Liskor 1997]。 


7.1.2 保护 电子 事务 


因特网 在 工业 、 商 业 和 其 他 领域 的 许多 应 用 中 都 包括 一 些 对 安全 性 要 求 较 高 的 事务 。 例 如 : 

电子 邮件 : 虽然 电子 邮件 系统 原本 不 包括 安全 性 ， 但 许多 用 户 的 信件 内 容 都 必须 保密 (例如 ， 
当 发 送 一 个 信用 卡号 的 时 候 ) 或 者 内 容 和 消息 的 发 出 者 必须 经 过 认证 (如 用 电子 邮件 提交 一 个 拍 
卖 的 竞价 )。 本 章 所 述 的 密码 安全 技术 现在 已 经 应 用 到 许多 邮件 客户 中 了 。 

购物 和 服务 : 这 样 的 事务 现在 已 经 非常 常见 了 。 购 买 者 在 Web 上 选 定 商品 并 付 账 ， 所 购 的 商 
品 会 通过 相应 的 配送 机 制 送 到 购买 者 的 手中 。 软 件 或 者 其 他 的 数字 产品 (如 唱片 和 录像 可 以 通 
过 从 因特网 上 下 载 来 交付 给 购买 者 。 其 他 有 形 的 商品 ， 如 图 书 、CP 和 其 他 各 种 商品 也 可 以 从 因 特 
网 供应 商 处 购买 ， 商 品 通 过 配送 服务 交付 到 购买 者 手中 。 

银行 享 务 : 电子 银行 为 用 户 提供 了 常规 银行 所 能 提供 的 所 有 的 服务 。 用 户 可 以 检查 余额 状态 、 
转账 、 定 期 缴纳 各 种 款项 等 。 

微 事务 : 因特网 参与 向 大 量 用 户 提供 少量 的 信息 和 其 他 服务 。 例 如 ， 大 部 分 的 Web 页 面 还 没 
有 收费 ， 但 作为 一 个 高 质量 的 发 布 媒介 的 网 页 的 发 展 取决 于 信息 提供 者 从 信息 的 消费 者 处 获得 的 
费用 。 例 如 ， 因 特 网 上 音频 和 视频 会 议 的 使 用 ， 就 是 一 种 有 偿 服 务 。 这 些 服务 的 价格 或 许 不 到 一 - 
分 钱 ， 支 付 开销 必须 相应 较 低 。 通 常 来 说 ， 让 每 一 个 事务 包括 一 个 银行 或 信用 卡 服务 器 的 方案 ， 
不 能 满足 降低 开销 的 要 求 。 

要 想 安全 地 执行 这 样 的 事务 ， 必 须 有 相应 的 安全 政策 和 安全 机 制 。 要 避免 在 消息 传输 过 程 中 
泄漏 购物 者 的 信用 卡号 码 (卡号 )， 以 及 防止 那些 无 诚信 的 供 货 商 在 收 到 付款 后 却 不 发 货 。 供 货 商 
必须 在 发 货 前 收 到 付款 ， 对 于 下 载 的 产品 ， 他 们 还 必须 确保 只 有 顾客 得 到 了 可 用 的 数据 。 保 护 所 
需 的 开销 与 事务 的 价值 相 比 ， 必 须 是 合理 的 。 
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为 因特网 供 货 商 和 购买 者 制订 敏感 的 安全 政策 ， 会 产生 下 列 Web 交 易 的 安全 需求 : 

1) 为 购买 者 认证 供 货 商 ， 这 样 购买 者 就 可 以 确信 他 们 是 在 和 自己 准备 交易 的 供 货 商 的 服务 器 
联系 。 

2) 不 能 让 购买 者 的 信用 卡号 和 其 他 支付 信息 落 和 人 第 三 方 手中 ， 保 证 这 些 资料 不 加 改变 地 在 购 
买 者 和 供 货 商 之 间 传 输 。 

3) 如 果 商 品 是 可 以 下 载 的 ， 那 么 要 保证 它们 的 内 容 不 加 改变 地 传递 给 了 购买 者 ， 而 且 不 会 泄 
漏 给 第 三 方 。 

通常 供 货 商 并 不 需要 对 购买 者 的 身份 进行 认证 (除非 是 传递 不 可 下 载 的 商品 ) 。 供 货 商会 希 
望 能 检测 购买 者 的 付款 能 力 ， 但 这 通常 是 在 发 送 商品 前 ， 向 购买 者 的 银行 要 求 支付 款项 的 时 候 完 
成 的 。 

把 购买 者 比 作 银 行 账户 持 有 者 ， 供 货 商 比 作 银行 ， 那 么 使 用 开放 网 络 的 银行 事务 的 安全 需要 
与 购买 事务 类 似 ， 但 显然 还 有 下 列 需 要 ， 

4) 在 给 予 银 行 账户 的 持 有 者 访问 账户 的 权限 之 前 ， 要 对 其 身份 加 以 认证 。 

注意 ， 在 这 种 情况 下 ， 银 行 必 须 保 证 参与 了 事务 的 账户 持 有 者 不 能 抵赖 ， 这 一 点 非常 重要 。 
这 种 安全 需求 称 为 不 可 抵赖 。 

除了 上 述 由 安全 政策 规定 的 需求 外 ， 还 有 一 些 系统 需求 。 这 些 需 求 源 于 因特网 巨大 的 规模 过 
于 庞大 ， 所 以 购买 者 和 供 货 商 难于 达成 某 种 特定 的 关系 (通过 注册 密 铀 ， 以 供 以 后 使 用 ) 。 购 买 者 
应 该 可 以 在 没有 第 三 方 或 以 前 从 未 与 供 货 商 联系 过 的 情况 下 ， 完 成 一 个 安全 的 事务 。 一 些 技术 ， 
例如 使 用 cookies (用 于 记录 以 前 的 交易 ， 并 存储 在 客户 主机 上 ) 有 明显 的 安全 人 缺陷， 因为 台式 和 
移动 主机 都 经 常 处 于 不 安全 的 物理 环境 中 。 

考虑 到 因特网 商业 安全 的 重要 性 以 及 因特网 商业 的 飞速 发 展 ， 我 们 将 讲述 一 些 密码 安全 性 技 
术 的 使 用 ， 如 7.6 节 将 描述 在 大 部 分 电子 商务 中 使 用 的 实际 上 的 标准 安全 协议 一 一 传输 层 安全 
(TLS)， 我 们 还 会 描述 一 个 专门 为 微 事务 设计 的 协议 Millicent， 参 见 www.cdk4.net/security 。 

因特网 商业 是 安全 技术 的 一 个 很 重要 的 应 用 ， 但 它 不 是 唯一 的 应 用 。 任 何 个 人 或 是 组 织 在 存 
储 和 交互 重要 信息 的 地 方 都 会 用 到 它 。 在 个 人 通信 间 使 用 加 密 的 电子 邮件 已 经 成 为 大 家 关心 的 主 
题 。 我 们 将 在 7.5.2 节 中 提 到 这 场 辩论 。 


7.1.3 设计 安全 系统 


近年 来 ， 密 码 技术 及 其 应 用 都 得 到 了 巨大 发 展 ， 但 安全 系统 的 设计 依然 是 一 个 十 分 困难 的 任 
务 。 出 现 这 种 局 面 的 原因 是 ， 设 计 者 们 总 是 想 尽 可 能 地 应 付 所 有 可 能 的 攻击 和 漏洞 。 这 就 像 是 让 
程序 员 消 除 程 序 中 所 有 的 错误 。 在 这 两 种 情况 下 ， 都 没有 具体 的 方法 能 保证 实现 目标 。 按 已 知 的 最 
好 的 标准 去 设计 ， 并 进行 非 形式 化 的 分 析 和 检测 。 一 旦 设计 完成 ,可 以 选择 是 否 进行 形式 化 的 验证 。 
对 安全 协议 进行 形式 化 验证 的 工作 已 产生 了 许多 重要 的 结果 [Lampson et al. 1992，Schneider 1996， 
Abadi and Gordon 1999]。 可 以 在 www.cdk4.net/security 找 到 介绍 在 这 个 方向 迈 出 的 第 一 步 一 “BAN 
认证 逻辑 [Burrows et al. 1990] 及 其 应 用 一 一 的 介绍 。 

安全 就 是 要 避免 大 灾难 和 最 小 化 一 般 的 灾难 。 进 行 安全 设计 的 时 候 ， 必 须 假 设 处 于 最 坏 的 情 
况 下 。 下 面 的 “最 坏 情 况 的 假设 和 设计 指导 ”部 分 给 出 了 一 些 有 用 的 假设 和 设计 指南 。 这 些 假设 
是 本 章 讨 论 的 技术 思想 的 基础 。 


最 坏 情 况 的 假设 和 设计 指导 
聚 露 的 接口 : 分 布 式 系统 由 提供 服务 或 共享 信息 的 进程 组 成 。 进 程 之 间 的 通信 接口 必须 是 
开放 的 〈 为 了 让 新 的 客户 访问 它们 ) 一 一 攻击 者 可 以 给 任 一 接口 发 送 消息 。 

不 安全 的 网 络 : 例如 ， 消 息 源 可 以 是 伪造 的 -一 有 些 消息 看 似 来 自 Alice， 而 其 实 是 来 自 
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Mallory。 主 机 地 址 也 可 能 是 伪造 的 一 一 Mallory 用 与 Alice 相 同 的 地 址 连接 到 网 络 ， 并 可 以 接收 
发 送 给 Alice 的 消息 的 副本 。 

限制 保密 的 时 间 和 范围 : 当 密 钥 产 生 时 ， 我 们 相信 这 个 密 钥 是 安全 的 。 随 着 密 钥 的 使 用 时 
间 越 来 越 长 、 范 围 越 来 越 广 泛 ， 它 的 安全 风险 也 随 之 增加 。 一 些 保密 措施 (如 密码 和 共享 密 钥 ) 
的 使 用 时 间 应 当 是 有 限 的， 而 且 共 享 范围 应 该 被 严格 控制 。 

攻击 者 能 够 获得 算法 和 程序 代码 : 一 个 秘密 分 布 的 范围 越 广 泛 , 它 被 沿 漏 的 风险 也 就 越 大 。 
在 当今 如 此 大 规模 的 网 络 环境 中 ， 现 有 的 密 钥 加 密 算法 是 不 够 的 。 最 好 的 保密 方法 是 公布 用 来 
加 密 和 认证 的 算法 ， 而 仅仅 依靠 加 密 密 钥 的 秘密 性 。 这 样 可 以 通过 第 三 方 的 检验 ， 增 强 对 算法 
可 靠 性 的 信心 。 

攻击 者 可 能 访问 大 量 资源 ， 计算 开 销 在 迅速 地 下 降 。 我 们 应 该 假设 攻击 者 能 访问 一 个 系统 
生命 期 中 计算 能 力 最 强 的 计算 机 ， 并 通过 执行 大 量 命令 产生 不 可 预计 的 结果 。 

使 可 信 库 最 小 化 : 系统 的 各 个 部 分 都 应 当 对 系统 的 安全 负责 ， 而 且 系 统 的 所 有 软 、 硬 件 组 
件 都 应 该 是 可 信和 的 一 一 这 也 常 被 称 为 可 信 的 计算 库 。 这 个 可 信 库 中 的 任何 缺陷 或 程序 错误 都 可 
能 产生 安全 漏洞 ， 所 以 我 们 应 该 使 可 信 库 的 规模 最 小 。 例 如 ， 不 能 信任 应 用 程序 来 保证 用 户 数 
据 的 安全 。 











为 了 说 明 一 个 系统 中 使 用 的 安全 机 制 的 有 效 性 ， 系 统 设计 者 必须 首先 列 出 所 有 可 能 的 威胁 ， 
即 会 破坏 安全 政策 的 方法 ， 并 给 出 解决 威胁 的 机 制 的 说 明 。 这 种 说 明 可 以 采取 非 正 式 讨论 的 形式 ， 
或 采用 逻辑 证 明 的 形式 (这 种 方式 更 好 )。 

在 这 张 威胁 列表 中 不 可 能 列 出 所 有 的 问题 ， 因 此 在 安全 敏感 的 程序 中 还 必须 使 用 审计 的 方法 。 
如 果 安 全 敏感 系统 中 的 安全 日 志文 件 总 是 详细 记录 用 户 的 操作 和 他 们 的 授权 信息 ， 那 么 审计 是 很 
容易 实现 的 。 

一 个 安全 日 志 会 对 用 户 的 操作 打上 时 间 发 并 按 序 记录 。 日 志 中 的 记录 至 少 要 包括 主体 的 身份 、 
所 完成 的 操作 〈 如 删除 文件 、 更 新 账户 记录 ) 、 被 操作 对 象 的 标识 和 一 个 时 间 惟 。 在 可 疑 的 地 方 ， 
记录 中 还 会 包含 对 物理 资源 (网络 带宽 和 外 围 设备 ) 使 用 的 记录 或 是 在 日 志 中 记录 对 一 些 特 殊 对 
象 的 操作 。 后 续 的 分 析 可 以 是 基于 统计 的 或 基于 搜索 的 。 随 着 时 间 的 流逝 ， 即 使 没有 可 疑 之 处 ， 
这 些 统计 信息 也 有 助 于 发 现 异常 的 趋势 或 事件 。 

安全 系统 的 设计 必须 在 试图 解决 各 种 威胁 的 机 制 和 这 种 机 制 带 来 的 开销 之 间 加 以 权衡 。 用 来 
保护 进程 和 进程 间 通 信 的 技术 可 以 涉及 相当 广 的 范围 而 且 强 大 到 足以 对 付 几 乎 任何 攻击 ， 但 使 用 
它们 的 也 会 导致 一 些 开销 和 不 便 : 

* 在 使 用 安全 系统 时 ， 产 生 了 额外 的 开销 (在 计算 机 效率 和 网 络 的 使 用 上 )。 必 须 在 这 种 开销 

和 所 要 解决 的 威胁 间 加 以 权衡 。 

“ 使 用 了 不 合适 安全 策略 ， 会 导致 合法 的 用 户 也 要 执行 不 必要 的 操作 。 

不 与 安全 相 折衷 ， 这 样 的 平衡 就 很 难 达成 ， 也 似乎 与 本 小 节 第 一 段 中 的 建议 相 冲 突 。 但 安全 
技术 可 以 根据 估计 的 攻击 开销 来 量化 和 选择 。www.cdk4.net/security 中 描述 的 小 型 商业 事务 使 用 的 
Millicent 协 议 就 采用 开销 较 低 的 技术 。 

在 7.6.4 节 中 ， 我 们 将 回顾 在 IEEE 802.11 WiFi 网 络 标准 的 安全 设计 中 遇 到 的 问题 ， 作 为 对 安全 
系统 的 设计 过 程 中 可 能 遇 到 的 困难 的 一 个 例子 。 


7.2 安全 技术 概述 


本 节 的 目的 是 向 读者 介绍 一 些 保护 分 布 式 系统 和 应 用 的 重要 技术 和 机 制 。 这 里 我 们 将 非 形式 
化 地 描述 它们 ， 更 为 严格 的 描述 将 在 7.3 节 和 7.4 节 给 出 。 我 们 将 使 用 图 7-1 中 为 主体 所 起 的 名 字 ， 
并 将 为 加 密 和 签发 的 项 目 应 用 图 7-2 中 所 示 的 符号 。 
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7.2.1 密码 学 
加 密 就 是 将 消息 编码 以 隐藏 原 有 内 和 
容 的 过 程 。 现 代 密 码 学 包括 多 种 加 密 和 Bob 的 密 外 
解密 消息 的 安全 算法 ， 它 们 都 基于 密 铀 Alice 和 Bob 共 享 的 密 铀 
的 使 用 。 密 钥 是 加 密 算法 中 的 一 个 参数 ， mm Alice 的 私 钥 (只 有 Alice 知 道 ) 
也 就 是 说 ， 如 果 不 知道 密 钥 ， 就 不 可 能 Alice 的 公 钥 (由 Alice 公 布 的 ， 所 有 人 都 可 以 获得 ) 
解密 用 密 钥 上 加密 的 消息 M4 
° 2 签 > > | 
通常 使 用 的 加 密 算法 有 两 类 。 第 一 用 密 铀 K 答 发 的 消息 





类 使 用 的 是 共享 的 密 钥 ， 即 发 送 者 和 接 
收 者 必须 知道 这 个 密 钥 ， 但 不 能 让 其 他 
大 知道。 第 二 类 加 密 算 法 使 用 的 是 公 钥 / 私 钥 对 ， 即 消息 发 送 者 用 一 个 公 钥 (这 个 窗 钥 已 经 被 接收 
者 公布 了 ) 来 加 密 消 息 。 接 收 者 用 一 个 相应 的 私 铀 对 消息 解密 。 尽 管 许多 主体 都 会 检测 公 钥 ， 但 
只 有 接收 者 可 以 解密 消息 ， 因 为 他 有 私 钥 。 

这 两 类 加 密 算法 都 非常 有 用 ， 并 且 在 建立 安全 的 分 布 式 系 统 中 得 到 了 广泛 的 使 用 。 公 名 加密 
算法 的 处 理 能 力 一 般 是 密 钥 算法 的 100 到 1000 倍 ， 但 它 的 便利 性 大 大 弥补 了 这 一 缺陷 。 


7.2.2 密码 学 的 应 用 


密码 学 在 安全 系统 的 实现 中 扮演 了 三 种 角色 。 我 们 在 此 只 通过 一 些 简单 的 场景 概要 地 介绍 一 
下 。 在 本 章 后 面 的 小 节 里 ， 我 们 会 详细 讨论 它们 以 及 其 他 一 些 协 议 ， 并 着 重 解决 此 处 提 到 的 几 个 
未 解决 的 问题 。 

在 下 面 的 场景 中 ， 我 们 假设 Alice、Bob 和 其 他 参与 者 都 已 经 对 所 用 的 加 密 算法 达成 了 一 致 ， 
同时 也 实现 了 这 些 算法。 我 们 还 假设 任何 密 钼 或 私 钥 都 会 得 到 妥善 保存 ， 不 会 被 攻击 者 获得 。 

秘密 性 和 完整 性 ”密码 学 用 于 维护 暴露 于 潜在 的 攻击 下 的 信息 的 秘密 性 和 完整 性 ， 例 如 在 通 
过 网 络 传输 的 时 候 ， 信 息 很 容易 被 窃听 或 者 得 改 ， 这 是 密码 学 在 军事 和 情报 活动 中 的 传统 作用 。 
它 是 根据 这 样 一 个 事实 ， 由 某 个 加 密 密 钥 加 密 的 消息 ， 只 能 由 知道 相应 解密 密 钥 的 接收 者 才能 解 
密 。 只 要 解密 密 钥 被 妥善 保存 (未 泄漏 给 第 三 方 )， 就 能 保持 加 密 消 息 的 秘密 性 。 当 然 ， 还 要 求 加 
密 算法 足以 应 付 任何 破解 它 的 尝试 。 如 果 在 加 密 过 程 中 包括 像 校 验 和 这 样 的 元 余 信 息 并 对 之 加 以 
检查 ， 那 么 加 密 过 程 也 可 维护 加 密 信 息 的 完整 性 。 

场景 1; 用 共享 的 密 钥 进行 秘密 通信 Alice 想 要 秘密 地 给 Bob 发 送 一 些 信息 。Alice 和 Bob 共 享 
密 钥 Ke。 

1) Alice 使 用 Kass 和 两 人 达成 一 致 的 加 密 函 数 E(Kss，M) 加 密 消 息 ， 并 将 任意 数量 的 消息 
{AMijxus 发 送 给 Bob。( 只 要 及 As 是 安全 的 ，Alice 就 可 以 继续 使 用 及 ) 。 

2) Bob 利 用 相应 的 解密 函数 D(K4s，M) 对 加 密 消息 解密 后 就 可 以 得 到 原来 的 消息 了 。 

Bob 现 在 可 以 读 取 原 始 的 消息 M。 如 果 当 Bob 解 密 消 息 的 时 候 ， 消 息 是 有 意义 的 ， 或 者 更 好 的 
情况 是 ， 它 包括 Alice 和 Bob 之 间 达 成 一 致 的 值 ， 例 如 消息 的 校 验 和 ， 那 么 Bob 就 可 以 知道 这 个 消息 
确实 是 来 自 Alice，、 而 且 没 有 被 自 改 过 。 但 仍然 存在 一 些 问题 ， 

问题 1，Alice 怎 样 将 共享 的 密 钥 K,s 安 全 地 发 送 给 Bob? 

问题 2: Bob 怎样 知道 任何 {MM} 是 Alice 以 前 发 送 的 加 密 消息 ， 而 不 是 后 来 由 Mallory 截 获 并 重 发 
的 ?在 进行 这 样 的 攻击 时 ，Mallory 并 不 需要 有 密 钥 Ks 一 一 他 只 需 拷贝 表示 消息 的 比特 流 ， 然 后 发 
送 给 Bob 即 可 。 例 如 ， 如 果 消 息 是 一 个 付 钱 给 某 人 的 请 求 ， 那 么 Mallory 就 会 让 Bob 多 付 一 次 钱 。 

我 们 将 在 本 章 后 面 给 出 这 些 问题 的 解决 方案 。 

认证 ”密码 学 可 以 用 来 实现 主体 间 通 信 的 认证 机 制 。 主 体 用 特定 的 密 钥 成 功 解密 消息 后 ， 如 
果 它 包括 正确 的 校 验 和 或 者 〈 使 用 了 加 密 的 块 链接 模式 ， 见 7.3 节 ) 其 他 期 望 出 现 的 值 ， 则 认为 消 


图 7-2 密码 符号 
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息 是 可 信 的 。 如 果 这 个 密 钥 只 为 通信 双方 所 知 ， 就 可 以 推断 消息 的 发 送 者 具有 相应 加 窗 密 钥 ， 也 
就 可 以 推断 出 发 送 者 的 身份 。 如 果 密 钥 是 私人 所 有 的 ， 则 成 功 地 解密 也 就 认证 了 已 解密 的 消息 是 
来 自 特定 的 发 送 方 。 

场景 2: 和 服务 器 间 的 认证 通信 Alice 想 访问 Bob 拥 有 的 文件 ， 也 就 是 她 的 工作 单位 的 本 地 网 
中 的 一 个 文件 服务 器 。Sara 是 一 个 被 安全 管理 着 的 认证 服务 器 。Sara 向 用 户 发 送 口令 ， 并 且 保 存 着 
系统 中 所 有 主体 的 当前 密 钥 (通过 在 用 户口 令 上 进行 一 些 转换 而 得 到 )。 例 如 ， 它 知道 Alice 的 密 铀 
天 和 Bob 的 密 钥 Ke。 在 这 个 场景 中 ， 我 们 将 谈 到 对 证 。 票 证 是 由 认证 服务 器 发 出 的 一 个 加 密 项 ， 包 
括 向 其 发 送 票证 的 主体 的 身份 和 一 个 用 作 当 前 通信 会 话 的 共享 密 钥 。 

1) Alice 向 Sara 发 送 了 一 条 (未 加 密 的 ) 消息 ， 声 明了 她 的 身份 ， 并 向 Sara 请 求 一 张 访问 Bob 


2) Sara 用 KK 加 密 应 答 消息 ， 并 回 发 给 Alice， 应 答 消 息 包括 一 个 用 KK 加 密 的 票证 ( 同 访问 文件 
的 请 求 一 起 发 送 给 Bob) 和 一 个 新 的 密 钥 Ksp，K4s 用 于 和 Bob 通 信 。 因 此 Alice 收 到 的 应 答 形式 为 ; 
{{Ticket}Ks, Kag}Ks 

3) Alice 用 KK, 解密 应 答 (Ks 是 根据 Alice 的 口令 用 同样 的 转换 过 程 生 成 的 ， 该 口令 没有 在 网 络 
上 和 传输。 一旦 被 使 用 后 ， 就 从 本 地 存储 中 删除 它 ， 以 防 泄露 )。 如 果 Alice 从 口令 中 生成 正确 的 K,， 
那么 她 就 可 以 得 到 一 个 访问 Bob 服 务 的 有 效 票证 和 一 个 用 于 与 Bob 通 信 的 新 的 加 密 窗 钥 。Alice 不 能 
解密 或 算 改 票证 ， 因 为 它 是 用 Ks 加 密 的 。 如 果 接 收 者 不 是 Alice， 那 么 就 不 知道 Alice 的 口令 ， 也 就 
无 法 解密 消息 。 

4) Alice 将 票证 、 自 己 的 身份 和 一 个 访问 文件 的 请 求 R 一 起 发 给 Bob; {Ticker}K,,，Alice ，R 。 

5) 最 初 由 Sara 产 生 的 票证 实际 上 是 {Ks4s，Alice}Ks。Bob 用 自己 的 密 钥 ,解密 票证 。Bob 便 可 
以 得 到 Alice 的 身份 认证 (基于 只 有 Alice 和 Sara 知 道 Alice 的 口令 事实 ) 和 一 个 用 来 和 Alice 交 互 的 新 
的 共享 密 钥 Ke。( 这 也 被 称 为 会 话 密 铀 ， 因 为 Alice 和 Bob 可 以 安全 地 用 它 进行 一 系列 交互 ) 。 

上 面 的 场景 是 最 初 由 Roger Needleham 和 Michael Schroeder [1978] 开 发 的 认证 协议 的 一 个 简化 的 
版 本 ， 后 来 又 在 MIT [Steiner et al. 1988] 开发 并 使 用 的 Kerberos 系 统 上 得 到 了 使 用 ， 详 见 7.6.2 节 。 在 
上 面 的 简化 版 协议 中 ， 没 有 措施 防止 对 但 认证 信息 的 重 放 。 这 个 弱点 和 其 他 一些 弱点 将 在 完整 的 
Needleham-Schroeder 协 议 〈 见 7.6.1 节 ) 的 描述 中 解决 。 

我 们 描述 的 认证 协议 取决 于 认证 服务 器 Sara 事 先知 道 Alice 和 Bob 的 密 钥 K, 和 天 。 这 在 一 个 单 
一 的 组 织 中 是 可 行 的 。 这 时 ，Sara 运 行 在 一 个 物理 安全 的 计算 机 上 ， 并 由 可 信 的 主体 管理 它 ， 主 体 
产生 这 些 密 钥 的 初始 值 ， 并 用 单独 的 安全 通道 传输 给 相应 的 用 户 。 但 这 在 电子 商务 或 其 他 广 域 应 
用 上 是 不 适合 的 ， 此 时 使 用 单独 的 安全 通道 非常 不 方便 ， 并 且 要 求 一 个 可 信 的 第 三 方 是 不 切实 际 
的 ， 而 公 和 钥 加 密 的 出 现 让 我 们 摆脱 了 这 种 两 难 境地 。 

质询 的 有 获 性 : Needham 和 Schroeder 在 1978 年 取得 了 一 个 重要 的 突破 ， 他 们 认识 到 用 户 的 口 
令 并 不 需要 在 每 次 认证 时 都 发 送 给 一 个 认证 服务 (这样 会 暴露 在 网 络 中 )。 相 反 ， 他 们 引入 了 加 密 
质询 的 概念 。 在 上 面 场景 的 第 2 步 中 ， 服 务 器 Sara 把 用 Alice 的 密 钥 玉 ,加 密 的 票证 发 送 给 Alice。 这 里 
包括 一 个 质询 ， 因 为 Alice 除 非 能 解密 这 个 票证 ， 否 则 就 不 能 使 用 它 ， 而 且 Alice 只 有 在 知道 及 的 情 
况 下 才 司 以 解密 票证 ， 而 及 来 自 于 Alice 的 口令 。 冒 充 Alice 的 人 不 可 能 通过 这 一 步 。 

场景 3: 使 用 公 铀 的 认证 通信 ”假设 Bob 已 经 产生 了 一 个 公 钼 / 私 钥 对 ， 下 面 的 对 话 可 以 使 Bob 
和 Alice 建 立 一 个 共享 的 密 钥 Ks。 

1) Alice 访 问 一 个 密 钥 分 发 服务 得 到 公 角 证书， 它 给 出 了 Bob 的 公 钥 。 它 之 所 以 称 为 证 书 ， 是 
因为 它 是 由 一 个 可 信 的 权威 机 构 签发 的 一 一 一 个 广为人知 的 可 靠 的 人 或 组 织 。 在 检验 过 签名 后 ， 
Alice 从 证 书 中 读 取 Bob 的 公 角 Ks,。 (我 们 将 在 7.2.3 节 讨论 公 角 证书 的 构造 和 使 用 ,) 

2) Alice 创 建 一 个 与 Bob 共 享 的 新 密 钥 Kp， 并 用 公 钥 算法 和 Kaw 对 新 密 钥 加 密 。 她 将 结果 和 一 
个 能 唯一 标识 公 钼 / 私 钥 对 的 名 字 发 给 Bob (因为 Bob 可 能 有 多 个 公 钥 / 私 钥 对 ) 。 于 是 Alice 发 送 给 
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Bob 的 是 “ 密 钥 名 字 ，{ Kp}Kppwp” 。 

3) Bob 从 他 的 众多 私 钥 中 选 出 相应 的 私 钥 Ks,,， 并 用 它 解密 Ka。 注意 ，Alice 给 Bob 发 送 的 消 
息 在 传输 过 程 中 可 能 会 被 破坏 和 算 改 。 结 果 是 Alice 和 Bob 不 能 共享 密 钥 K4sp。 如 果 存 在 这 个 问题 的 
话 ， 可 以 比较 巧妙 地 解决 : 在 消息 中 加 入 协商 好 的 值 或 字符 串 ， 例 如 Alice 和 Bob 的 名 字 或 电子 邮 
件 地 址 ， 这 样 Bob 就 可 以 在 解密 的 时 候 检查 一 下 。 

上 面 的 场景 说 明了 使 用 公 钥 加 密 发 送 一 个 共享 的 密 钥 的 方法 。 这 项 技术 被 称 为 混合 密码 协议 
并 被 广泛 使 用 ， 因 为 它 利用 了 公 和 钥 加 密 算法 和 密 钥 加 密 算 法 两 者 的 特点 。 

问题 : 这 种 密 钥 交 换 很 容易 受到 中 间 人 攻击 。Mallory 可 能 截获 Alice 最 初 向 密 钥 分 发 服务 索要 
Bob 公 铀 证 书 的 请 求 ， 并 回复 一 个 包括 自己 公 钼 的 消息 。 然 后 ， 他 就 可 以 截获 所 有 后 续 的 消息 。 前 
面 介绍 过 ， 为 了 防止 这 种 攻击 ， 我 们 要 求 Bob 的 证 书 应 该 由 一 个 众所周知 的 权威 机 构 签发 。 同 时 ， 
Alice 必 须 确保 Bob 的 公 角 证 书 是 由 一 个 她 在 完全 安全 方式 下 收 到 的 公 和 钥 (下面 将 会 讲 到 ) 签发 的 。 

数字 签名 我 们 将 使 用 密码 学 实现 一 种 称 为 数字 签名 的 机 制 。 它 的 作用 和 通常 意义 的 签名 相 
似 ， 用 于 向 第 三 方 核实 消息 或 文档 在 签名 人 完成 后 没有 被 改变 过 。 

数字 签名 技术 是 基于 将 一 个 只 有 签名 人 才 知 道 的 秘密 不 可 逆 地 绑 定 在 消息 或 文档 上 实现 的 。 
这 可 以 通过 对 消息 加 密 来 实现 一 一 或 更 好 的 方法 是 用 只 有 签名 人 才 知 道 的 密 钥 将 消息 压缩 成 摘要 。 
摘要 是 由 一 个 安全 摘要 吏 数 计算 而 成 的 固定 长 度 的 值 。 安 全 摘要 函数 类 似 于 校 验 和 函数 ， 但 它 不 
会 为 两 个 不 同 的 消息 产生 相似 的 摘要 值 。 加 密 的 摘要 附 在 消息 上 作为 签名 。 通 常 按 以 下 方式 使 用 
公 钥 加 密 : 首先 ， 签 名 人 用 他 们 的 私 钥 产 生 一 个 签名 ， 签 名 可 以 由 任何 接收 者 用 相应 的 公 和 钥 解密 。 
另 一 个 要 求 是 ， 验 证 人 必须 能 确保 这 个 公 钥 就 是 签名 人 的 公 钥 ， 这 使 用 公 钾 证书 来 解决 ， 见 7.2.3 
节 的 描述 。 

场景 4: 使 用 安全 摘要 函数 的 数字 签名 Alice 要 对 一 个 文件 M 签名 ， 使 得 任何 接收 者 都 能 验证 
她 是 这 个 文件 的 签发 人 。 这 样 ， 当 Bob 通 过 某 种 途径 或 资源 (例如 来 自 消 息 或 者 一 个 数据 库 ) 接收 
到 文件 后 访问 这 个 签 了 名 的 文件 ， 他 就 可 以 验证 Alice 是 文件 的 签发 人 。 

1) Alice 为 文件 计算 出 一 个 固定 长 度 的 摘要 Digest (M)。 

2) Alice 用 她 的 私 钥 为 这 个 摘要 加 密 ， 并 附 在 M 上 ， 再 将 “M，{Digesi(M)}K4.” 公 布 给 需要 
的 用 户 。 

3) Bob 得 到 这 个 签 了 名 的 文件 ， 抽 取出 M 并 且 计 算 Digesi(M)。 

4) Bob 用 Alice 的 公 钥 Ksww 解 密 {Digesi(M)}Kyn, ， 将 结果 和 自己 计算 的 Digest(MD) 做 比较 ， 如 
果 相 匹配 的 话 ， 签 名 就 是 有 效 的 。 
7.2.3 证 书 

数字 证 书 是 由 -个 主体 签发 的 包含 一 个 声明 (通常 较 短 ) 的 文档 。 我 们 用 一 个 场景 来 说 明 这 
个 概念 。 

场景 5: 使 用 证 书 ”Bob 是 一 家 银行 。 每 当 他 的 顾客 和 他 建立 联系 时 ， 他 们 需要 确认 他 们 是 在 
和 银行 Bob 交 互 ， 即 使 他 们 以 前 从 来 没有 和 Bob 接 触 过 。Bob 则 在 授予 用 户 访问 他 们 的 账号 的 权限 
前 ， 对 其 身份 加 以 验证 。 

例如 ，Alice 觉 得 从 她 的 银行 获得 一 张 证 明 她 的 银行 账号 的 证 书 ( 见 图 7-3) 很 有 用 。Alice 可 以 
在 购物 时 用 到 这 个 证 书 ， 以 证 明 自 己 在 Bob 银 行 开 了 户 。 证 书 用 Bob 银 行 的 私 钥 Ks,,, 签 发 。 供 货 商 
Carol 如 果 能 验证 第 5 个 域 中 的 签名 ， 她 就 可 以 接受 用 这 个 证 书 为 Alice 付 账 。 为 此 ，Carol 需 要 有 
Bob 的 公 钥 ， 而 且 还 要 进行 验证 ， 防 止 Alice 签 发 了 一 个 将 自己 名 字 关 联 到 别人 账号 的 假 的 证 书 。 
要 进行 这 样 的 攻击 ，Alice 只 要 产生 一 个 新 的 “Kas we，Ksww ” 密 钥 对 ， 并 用 它们 产生 一 个 假 的 证 书 ， 
且 声 称 它 来 自 于 Bob 银 行 。 

Carol 现 在 需要 的 是 由 可 信和 权威 机 构 签发 的 含有 声明 了 Bob 公 钥 的 证 书 。 我 们 假设 Fred 代 表 银 
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行家 联盟 ， 他 是 能 证 明 银 行 公 钥 的 人 之 一 。Fred 为 Bob 发 行 了 一 个 公 铀 证 书 (参见 图 7-4)。 





账户 号 码 公 钥 
Alice Bob 的 银行 
6262626 Ko 


Bob 的 银行 Fred 银行 家 联盟 
{Digest (field2 + field3) Kepm {Digest ( field2 + field3)} Kori, 





图 7-3 Alice 的 银行 账号 证 书 图 7-4 _ Bob 银行 公 钥 的 证 书 


当然 ， 这 个 证 书 取决 于 Fred 公 钥 开 ro 的 真实 性 ， 这 样 我 们 就 面临 一 个 真实 性 的 递归 问题 一 一 如 
果 Carol 能 确信 她 知道 Fred 真 实 的 公 钥 Km ， 她 才能 信任 这 个 证 书 。 我 们 可 以 让 Carol 用 某 种 可 信 的 
方式 得 到 Kpw。， 从 而 打破 这 一 递归 一 一 证 书 可 能 是 由 Fred 的 一 个 代表 亲手 交 给 她 或 者 她 从 自己 信任 
的 人 那里 收 到 一 个 签名 的 证 书 ， 而 这 个 证 书 直 接 来 自 Fred。 我 们 的 例子 说 明了 一 个 证 书 链 ， 当 前 情 
况 下 就 是 一 个 有 两 个 环节 的 链 。 

我 们 已 经 间接 提 到 证 书 引发 的 一 个 问题 一 一 如 何 选择 一 个 可 信 的 权威 机 构 ， 使 得 认证 链 得 以 
开始 。 信 任 通 常 不 是 绝对 的 ， 因 此 对 权威 机 构 的 选择 就 必须 取决 于 证 书 是 打算 给 谁 的 。 由 于 私 钥 
有 被 泄漏 的 危险 以 及 证 书 链 可 容许 的 长 度 会 引发 其 他 问题 ， 证 书 链 越 长 ， 冒 的 风险 就 越 大 。 | 

如 果 小 心 解决 了 这 些 问题 ， 证 书 链 就 成 为 了 电子 商务 和 真实 世界 其 他 事务 的 重要 基础 。 它 们 有 
助 于 解决 了 大 规模 认证 的 问题 : 世界 上 有 60 亿 人 口 ， 我 们 怎样 才能 在 任意 人 之 间 建 立 起 信任 关系 ? 

证 书 可 用 于 验证 多 种 声明 的 真实 性 。 例 如 ， 一 个 组 织 或 协会 的 成 员 可 能 要 维护 一 份 电子 邮件 
列表 ， 并 只 对 组 织 内 成 员 公 开 。 解 决 这 一 问题 的 办 法 是 让 具有 管理 成 员 资 格 的 经 理 (Bob) 给 每 个 
成 员 发 送 一 个 成 员 资格 证 书 (5, Bob, {Digest(5)} Kap)， 这 里 5 是 形 如 “Alice 是 友好 社 的 一 个 成 员 ” 
的 语句 ，Kspws 是 Bob 的 私 钥 。 想 要 加 入 友好 社 电子 邮件 列表 的 成 员 必 须 向 列表 管理 系统 提供 这 个 证 
书 的 一 个 拷贝 ， 而 管理 系统 会 在 检查 证 书后 允许 Alice 加 入 这 个 列表 。 

为 了 使 用 证 书 ， 需 要 做 两 件 事情 ， 

* 证书 要 有 标准 的 格式 和 表现 形式 ， 这 样 证 书签 发 者 和 证 书 用 户 就 可 以 成 功 地 构造 并 解释 证 书 。 

* 证书 链 的 构造 方式 必须 达成 一 致 ， 特 别 是 对 权威 机 构 。 

我 们 将 会 在 7.4.4 节 讨论 这 些 需 求 。 

有 了 时 需要 收回 一 个 证 书 。 例 如 ，Alice 不 想 继续 成 为 友好 社 的 成 员 ， 但 她 或 其 他 人 还 可 能 保留 
她 的 成 员 证 书 的 拷贝 。 跟 踪 并 删除 所 有 这 类 证 书 的 开销 巨大 其 至 根本 就 不 可 能 实现 ， 而 且 取 消 证 
书 的 有 效 性 也 是 不 容易 的 ， 因 为 要 通知 所 有 可 能 接收 这 个 被 撤销 的 证 书 的 接收 者 。 通 常 ， 解 决 这 
种 问题 的 办 法 是 在 证 书 中 包含 一 个 过 期 日 期 ， 收 到 过 期 证 书 的 人 应 该 将 证 书 抛弃 。 证 书 的 主体 也 
必须 请 求 更 新 自己 。 如 果 需 要 更 加 迅速 地 撤销 ， 就 要 借助 于 以 上 提 到 的 这 些 麻烦 的 机 制 了 。 

7.2.4 访问 控制 

本 节 我 们 将 概述 分 布 式 系统 中 对 资源 访问 控制 的 概念 以 及 实现 技术 ， 在 Lampson[1971] 的 一 篇 
经 典 论文 中 非常 清晰 地 介绍 了 保护 和 访问 控制 的 概念 ， 而 非 分 布 式 的 实现 细节 可 以 在 许多 操作 系 
统 的 书 中 看 到 [stallings 1998b] 。 

从 历史 上 看 ， 分 布 式 系 统 中 的 资源 保护 大 部 分 是 面向 特定 服务 的 。 服 务 器 收 到 下 列 格式 的 请 
求 消息 : <op, principal, resource>， 其 中 op 是 所 请 求 操 作 的 名 称 ，principal 是 发 送 请 求 的 主体 的 一 
个 标识 或 者 一 组 证 书 ，resource 是 操作 所 应 用 的 资源 。 服 务 器 必须 先 认 证 请 求 消息 和 主体 的 证 书 ， 
然后 进行 访问 控制 ， 拒 绝 没有 访问 权限 的 主体 的 在 特定 的 资源 上 完成 某 类 操作 的 请 求 。 

在 面向 对 象 的 分 布 式 系统 中 ， 可 能 会 有 很 多 种 对 象 必须 应 用 访问 控制 ， 而 具体 的 决定 又 经 常 
是 面向 特定 应 用 的 。 例 如 ， 每 天 只 允许 Alice 从 银行 取 一 次 现金 ， 而 允许 Bob 取 三 次 现金 。 访 问 控 
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制 的 决定 通常 留 给 应 用 层 的 代码 来 处 理 ， 但 同时 也 为 支持 访问 控制 决定 的 大 部 分 机 器 提供 一 些 通 
用 的 支持 。 这 包括 主体 认证 、 请 求 的 签名 和 认证 、 管 理 证 书 和 访问 权限 数据 。 

保护 域 保护 域 是 一 组 进程 共享 的 一 个 执行 环境 ， 它 包括 一 组 <resource ，rights> 对 ， 列 出 了 
在 域内 执行 的 所 有 进程 允许 访问 的 资源 以 及 在 每 个 资源 上 所 能 进行 的 操作 。 保 护 域 通常 和 给 定 的 
主体 相关 一 一 当 一 个 用 户 登 录 时 ， 认 证 她 的 身份 ， 并 为 她 要 运行 的 进程 建立 一 个 保护 域 。 从 概念 
上 讲 ， 这 个 域 包 括 主 体 上 共有 的 所 有 访问 权限 ， 包 括 她 以 多 个 小 组 成 员 身份 得 到 的 权限 。 例 如 ， 在 
UNIX 中 ， 进 程 的 保护 域 是 由 在 登录 时 附 在 该 进程 上 的 用 户 或 组 的 标识 符 决定 的 。 权 限 是 按照 允许 
的 操作 来 指定 。 例 如 ， 一 个 文件 对 这 个 进程 可 以 读 / 写 ， 而 对 另 一 个 只 可 读 。 

保护 域 只 是 一 个 抽象 。 在 分 布 式 系统 中 普遍 使 用 的 实现 方式 有 两 种 ， 即 权能 和 访问 控制 列表 。 

权能 : 每 个 进程 根据 它 所 在 的 域 中 都 持 有 一 组 权能 。 权 能 是 一 个 二 进 制 值 ， 作 为 允许 所 有 
者 对 特定 资源 进行 某 种 访问 的 权限 。 在 分 布 式 系统 中 ， 权 能 必须 是 不 可 伪造 的 ， 形 式 如 下 : 





资源 标识 符 对 目标 资源 的 唯一 标识 
操作 允许 对 资源 进行 的 操作 
认证 代码 使 权能 不 可 伪造 的 数字 签名 


当 服 务 认 证 了 客户 属于 它 所 声明 的 保护 域 时 ， 它 就 给 客户 提供 权能 。 权 能 中 的 操作 是 目标 资 
源 定义 的 操作 的 一 个 子 集 ， 通 常 被 编码 成 一 个 比特 标志 。 可 以 用 不 同 的 权能 表示 对 同一 资源 不 同 
的 访问 权限 。 

使 用 权能 时 ， 客 户 请 求 的 形式 是 <op ,userid ,capability>。 请 求 包括 要 访问 的 资源 的 权能 ， 而 
不 是 一 个 简单 的 标识 符 ， 这 可 以 使 服务 器 立刻 就 能 知道 客户 有 权能 标识 的 访问 该 资源 的 权限 ， 能 
够 进行 权能 指定 的 操作 。 对 附 有 权能 的 请 求 的 访问 控制 检查 包括 检查 权能 的 有 效 性 ， 以 及 检查 请 
求 的 操作 是 否 在 权能 允许 的 集合 中 。 这 是 权能 机 制 的 主要 优点 ， 它 们 组 成 一 个 自 包 含 的 访问 钥匙 ， 
就 像 物 理 门 锁 的 钥匙 是 访问 门 锁 所 保护 的 大 楼 的 关键。 

权能 保留 了 物理 锁 的 钥匙 的 两 个 缺点 : 

* 铀 是 被 盗 : 任何 有 钥匙 的 人 都 可 以 用 它 进入 大 楼 ， 无 论 他 是 否 是 这 把 钥匙 的 合法 拥有 者 一 一 

他 们 可 以 用 偷盗 或 其 他 不 合法 的 手段 来 得 到 钥匙 。 

“回收 问题 : 保管 钥匙 的 资格 会 随时 间 的 流逝 变更 。 例 如 ， 曾 经 的 钥匙 拥有 者 不 再 是 大 楼 主人 

的 雇员 ， 但 他 如 果 仍 然 保管 或 者 复制 了 一 把 钥匙 ， 他 就 有 可 能 以 不 合法 的 方式 来 使 用 它 。 

针对 物理 钥匙 的 这 些 问题 ， 唯 一 可 行 的 解决 办 法 是 (1) 将 违法 的 钥匙 拥有 者 送 进 监 狱 ， 但 这 
并 不 能 永远 防止 那些 违法 事情 的 发 生 。(2) 换 锁 并 把 新 钥匙 发 给 当前 所 有 合法 的 钥匙 保管 者 ， 这 
是 一 种 代价 高 昂 的 办 法 。 

对 于 权能 而 言 ， 类 似 的 问题 有 : 

* 由 于 不 小 心 或 者 被 窃听 ， 权 能 可 能 会 落 人 非法 主体 手中 。 一 旦 这 样 ， 服 务 器 很 难 阻止 他 们 非 


法 使 用 权能 。 
“ 取消 权能 是 很 困难 的 。 持 有 者 的 状态 可 能 会 改变 ， 因 此 其 访问 的 权利 也 应 相应 地 改变 ， 但 他 
们 依然 拥有 着 权能 。 


现在 ， 已 经 有 解决 这 两 个 问题 的 途径 ， 一 是 包括 对 持 有 者 身份 验证 的 信息 ， 二 是 设置 超时 并 
附带 回收 权能 的 列表 [Gong 1989 ，Hayton et al. 1998]。 尽 管 加 入 这 些 信息 使 得 原本 简单 的 概念 复 
杂 起 来 ， 但 权能 依然 是 一 项 重要 的 技术 。 例 如 ， 它 们 可 以 和 访问 控制 列表 一 起 使 用 来 优化 对 同一 
资源 的 重复 访问 ， 它 们 为 实现 委托 提供 了 最 简洁 的 实现 机 制 [ 见 7.2.5 节 ]。 

注意 ， 权 能 和 证 书 具有 相似 性 。 回 想 一 下 7.2.3 节 介绍 的 证 明 Alice 有 银行 账号 的 证 书 。 证 书 与 
权能 的 区 别 在 于 没有 允许 操作 的 列表 ， 也 不 对 发 出 权能 者 进行 认证 。 在 某 些 环境 下 ， 权 能 和 证 书 





ko 


180 菜 7 重 


是 可 以 互 换 的 概念 。Alice 的 证 书 可 以 被 看 成 对 Alice 的 银行 账号 作 一 切 账 号 持 有 者 允许 的 操作 的 访 
问 钥匙 赁 证， 只 要 请 求 者 能 被 证 明 是 Alice 本 人 。 

访问 控制 列表 : 每 个 资源 都 有 这 个 列表 ， 有 格式 为 <domain，operations> 的 项 ， 它 指出 了 对 该 
资源 有 访问 权限 的 域 和 对 该 域 所 允许 的 操作 。 一 个 域 可 以 是 由 一 个 主体 的 标识 指定 ， 也 可 以 是 一 
个 用 于 决定 主体 在 域 中 资格 的 表达 式 。 例 如 ,， “文件 的 所 有 者 ”是 一 个 表达 式 ， 它 可 以 用 保存 在 文 
件 中 的 所 有 者 的 标识 和 主体 的 标识 作 比 较 而 求 得 该 表达 式 的 值 。 

这 是 大 多 数 文件 系统 采用 的 方案 (包括 UNIX 和 Windows NT) ， 每 个 文件 都 附 有 一 组 表示 访问 
权限 的 比特 值 ， 同 时 权限 被 授予 的 域 则 是 由 存在 于 每 个 文件 中 的 所 有 者 信息 定义 的 。 

发 到 服务 器 的 请 求 具有 <op ，principal，resource> 的 形式 。 对 每 一 个 请 求 ， 服 务 器 会 认证 主体 ， 
并 检验 所 请 求 的 操作 是 否 包含 在 相关 资源 的 访问 控制 列表 的 主体 项 中 。 

实现 ”数字 签名 、 证 书 和 公 钥 证 书 提供 了 安全 访问 控制 的 密码 学 基础 。 安 全 通道 具有 性 能 优 
势 ， 利 用 它 可 以 在 处 理 多 条 请 求 时 不 需要 重复 地 检查 主体 和 证 书 [Wobber et al. 1994] 。 

CORBA 和 Java 都 提供 了 安全 性 的 API。 支 持 访问 控制 是 它们 的 一 个 主要 目的 。Java 为 分 布 式 对 
象 提供 了 支持 ， 包 括 用 Principal、Signer、ACL 类 和 默认 的 认证 方法 进行 访问 控制 ， 还 有 对 证 书 、 
签名 有 效 性 及 访问 控制 检查 的 支持 。 同 时 支持 密 钥 和 公 钥 密码 学 。Farley [1998] 对 Java 的 这 些 特色 
作 了 很 好 的 介绍 。 对 于 Java 程 序 (包括 移动 代码 ) 的 保护 则 基于 保护 域 的 概念 一 一 本 地 代码 和 下 载 
的 代码 分 别 在 不 同 的 保护 域内 执行 。 每 个 下 载 的 代码 都 可 以 有 一 个 保护 域 ， 对 不 同 的 本 地 资源 的 
访问 权限 取决 于 下 载 代码 中 设置 的 信任 级 别 。 

CORBA 提 供 了 一 个 安全 服务 规约 [Blakley 1999 ，OMG 2002b]， 并 给 出 了 一 个 ORB 模 型 以 便 
提供 安全 通信 、 认 证 、 基 于 证 书 的 访问 控制 、ACL 和 审计 ， 这 将 在 17.3.4 节 做 进一步 的 描述 。 


7.2.5 凭证 


凭证 是 主体 在 请 求 访问 某 个 资源 的 时 候 提供 的 一 组 证 据 。 最 简单 的 情况 下 ， 具 有 一 个 从 相关 
权威 机 构 发 出 的 用 于 证 明 主 体 身 份 的 证 书 就 足够 了 ， 它 可 以 用 来 在 一 个 访问 控制 列表 中 检查 主体 
所 允许 的 操作 ( 见 7.2.4 节 )。 通 常 这 就 是 所 有 要 提供 的 ， 但 这 些 概 念 还 可 以 再 推广 一 下 ， 以 处 理 更 
加 细微 的 需求 。 

对 于 用 户 来 说 下 面 的 操作 是 很 不 方便 的 ， 即 在 每 次 需要 访问 受 保护 的 资源 时 都 让 他 们 同系 统 交 
互 并 给 出 自己 的 身份 验证 ， 有 一 种 折 囊 的 方法 是 引入 “和 凭证 证 明 主体 ”的 概念 。 这 样 ， 用 户 的 公 甸 
证 书 可 以 证 明 用 户 一 一 任 一 进程 收 到 由 用 户 的 私 钥 认 证 的 请 求 ， 就 可 以 认为 请 求 就 是 由 该 用 户 所 
发 出 的 。 

证 明 的 想法 还 可 以 进一步 延伸 。 例 如 ， 在 一 个 合作 任务 中 ， 可 能 要 求 一 些 敏 感 的 操作 只 能 由 
团队 中 具有 权限 的 两 名 成 员 来 完成 。 在 这 种 情况 下 ， 请 求 这 个 操作 的 主体 就 会 提交 自己 的 凭证 和 
该 组 另外 一 个 成 员 的 赁 证， 并 要 表明 在 检查 凭证 时 它们 是 在 一 起 的 。 

类 似 地 ， 投 票选 举 时 每 张 选票 都 会 附 有 选举 人 的 证 书 和 一 张 身份 证 书 。 委 托 证 书 允 许 主体 可 
以 代表 另外 一 个 人 来 操作 等 。 通 常 ， 访 问 控制 检查 包括 对 一 个 结合 了 证 书 的 逻辑 公式 的 求 值 。 
Lampson 等 人 [1992] 提 出 了 一 个 认证 逻辑 ， 用 于 评估 由 一 组 凭证 形成 的 证 明 ，Wobber 等 人 [1994] 描 
述 了 一 个 系统 ， 用 于 支持 这 种 非常 通用 的 检查 方法 ， 还 可 以 在 [Rowley 1998] 中 找到 真实 世界 的 合 
作 任 务 中 使 用 的 更 为 有 用 的 形式 。 

在 设计 实际 的 访问 控制 方案 时 ， 基 于 角色 的 凭证 显得 尤为 有 用 [Sandhu et al. 1996]。 对 于 组 织 
机 构 或 合作 性 任务 ， 可 以 定义 成 组 的 基于 角色 的 凭证 ， 应 用 层 的 访问 权限 也 可 通过 这 些 凭证 建立 
起 来 。 在 特定 的 任务 或 组 织 机 构 中 ， 角 色 可 以 用 产生 一 个 角色 证 书 ( 它 将 主体 与 一 个 命名 的 角色 
相关 联 ) 的 途径 ， 分 配给 特定 的 主体 [Coulouris et al. 1998]。 | 

委托 凭证 的 一 个 特别 有 用 的 形式 是 让 某 个 主体 或 代理 某 个 主体 的 进程 ， 在 另 一 个 主体 的 授 
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权 下 ， 执 行 某 个 操作 。 下 列 情况 需要 使 用 委托 : 服务 需要 访问 一 个 受 保护 的 资源 ， 以 代表 其 客户 
完成 一 个 动作 。 考 虑 接收 打印 文件 的 请 求 的 打印 服务 器 。 找 贝 整 个 文件 将 是 对 资源 的 浪费 ， 所 以 
用 户 只 需 将 文件 的 名 字 发 送 给 打印 服务 器 ， 而 由 打印 服务 器 代表 发 出 请 求 的 用 户 来 访问 这 个 文件 。 
如 果 这 个 文件 是 读 保护 的 ， 那 么 只 有 打印 服务 器 得 到 临时 的 读 权限 ， 才 能 进一步 工作 。 委 托 就 是 
为 了 解决 此 类 问题 而 设计 的 一 种 机 制 。 

委托 可 以 用 委托 证 书 或 者 委托 权能 来 实现 。 证 书 由 请 求 的 主体 签发 ， 它 授权 另外 一 个 主体 
(在 我 们 的 例子 中 指 打 印 服务 器 ) 访问 某 个 资源 (要 打印 的 文件 )。 在 支持 权能 的 系统 中 ， 也 可 以 
不 需要 标识 主体 便 达到 同样 的 效果 一 一 访问 某 资 源 的 权能 放 在 请 求 中 ， 一 起 发 送 到 服务 器 。 权 能 
是 一 个 不 可 伪造 的 、 有 关 资 源 访问 权限 的 编码 集 。 

委托 权限 后 ， 一 般 会 将 受 委托 方 使 用 的 权限 限制 在 委托 人 权限 的 子 集 内 。 这 样 受 委托 的 主体 就 不 
会 错 用 权限 。 在 我 们 的 例子 中 ， 证 书 应 该 是 有 时 间 限 制 的 ， 以 降低 打印 服务 器 的 代码 被 损害 ， 而 使 得 
文件 泄漏 给 第 三 方 的 风险 。CORBA 安 全 服务 包括 一 个 基于 证 书 的 权限 委托 机 制 ， 支 持 对 权限 的 限制 。 
7.2.6 防火 墙 

3.4.8 节 已 对 防火 墙 进行 过 介绍 。 它 可 以 保护 内 部 网 ， 对 流入 和 流出 网 络 的 信息 进行 过 滤 。 这 
里 我 们 将 讨论 它 作 为 安全 机 制 的 优点 和 缺点 。 

在 理想 的 世界 里 ， 通 信和 总 是 在 相互 信任 的 进程 中 进行 ， 也 总 是 使 用 安全 的 通道 。 但 实际 上 ， 
有 许多 原因 造成 这 种 理想 的 情况 不 能 达到 ， 有 些 原 因 源 于 分 布 式 系统 开放 性 本 质 中 所 固有 的 限制 ， 
有 些 原 因 则 源 于 大 多 数 软件 中 存在 的 错误 。 由 于 请 求 消息 可 以 被 轻松 地 发 送 到 任何 地 方 的 任何 服 
务 器 ， 而 且 大 多 数 服 务 器 在 设计 时 就 没有 考虑 到 防范 黑客 的 恶意 攻击 和 突 发 性 错误 ， 这 使 得 机 密 
信息 会 很 容易 地 从 组 织 的 服务 器 里 泄漏 出 去 。 一 些 意 想不到 的 东西 也 会 渗透 进 组 织 的 网 络 ， 例 如 
蠕虫 程序 或 病毒 。 对 防火 墙 的 进一步 讨论 参见 [Web.mit.edu [1 ]。 

防火 墙 创造 了 一 个 本 地 通信 环境 ， 使 得 所 有 的 外 部 通信 都 被 截取 。 只 有 获得 授权 的 通信 消息 
才 会 发 往 本 地 的 接收 者 。 

访问 内 部 网 络 会 受到 防火 墙 的 控制 ， 但 访问 因特网 上 的 公共 服务 是 不 受 此 限制 的 ， 因 为 其 目 
的 是 为 广大 用 户 提 供 服务 。 使 用 防火 墙 并 不 能 保护 网 络 免 受 来 自 组 织 内 部 的 攻击 ， 而 它 对 外 来 访 
问 的 控制 也 是 粗略 的 。 人 们 需要 细 粒 度 的 安全 机 制 ， 以 便 个 人 用 户 在 私密 性 和 完整 性 不 被 损害 的 
前 提 下 能 够 和 选 定 的 其 他 人 分 享 信息 。Abadi 等 人 [1998] 提 供 了 一 个 供 外 部 用 户 访问 私人 Web 数 据 
的 方法 ， 它 基于 Web 陛 道 机 制 ， 该 机 制 可 以 被 集成 到 防火 墙 中 。 访 机制 提 供 了 一 个 基于 HTTPS 协 
议 (TLS 上 的 HTTP) 的 安全 代理 ， 而 这 些 可 信和 认证 过 的 用 户 将 通过 这 个 代理 访问 内 部 的 Web 服 
务 器 。 

防火 墙 对 于 避免 拒绝 服务 攻击 (如 我 们 在 3.4.2 节 提 到 的 基于 IP 伪 冒 的 那 种 攻击 ) 不 是 很 有 效 。 
问题 在 于 这 种 攻击 生成 的 消息 会 像 洪水 一 般 淹没 任何 一 个 像 防 火 墙 之 类 的 防御 点 。 所 以 必须 在 目 
标的 上 游 对 洪水 般 的 进入 消息 加 以 处 理 。 使 用 服务 质量 机 制 限制 网 络 中 的 消息 流 ， 将 它 控制 在 目 
标 所 能 处 理 的 水 平 上 ， 似 平 还 有 可 能 缓解 这 种 攻击 。 


7.3 密码 算法 


发 送 方 按照 某 种 规则 将 明文 消息 〈 正 常 顺序 的 比特 流 ) 转换 成 密 文 消息 (改变 了 顺序 的 比特 
流 )， 这 就 是 消息 加 密 的 过 程 。 接 收 方 必须 知道 这 一 转换 规则 ， 才 能 够 将 密 文正 确 转 换 为 原来 的 明 
文 。 其 他 主体 无 法 解密 该 密 文 ， 除 非 他 们 知道 转换 规则 。 加 密 的 转换 过 程 由 两 个 部 分 定义 函数 妃 
和 密 钥 K， 加 密 后 的 消息 写成 :{M}x， 即 

E(K, M)={M}x 
加 密 函数 E 定 义 了 一 个 算法 ， 用 于 将 明文 中 的 数据 项 ， 通 过 和 密 钥 结合 并 加 以 转换 ， 将 它们 转 
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化 成 加 密 的 数据 项 ， 对 于 明文 的 变换 很 大 程度 上 依赖 于 是 密 钥 的 值 。 我 们 可 以 将 一 个 加 密 算法 看 
成 一 铸 函 数 的 规约 ， 通 过 给 定 的 密 钥 可 以 从 中 选 出 一 个 函数 。 解 密 是 由 一 个 逆 函 数 D 来 执行 的 ， 它 
也 以 一 个 密 钥 作为 参数 。 对 窗 钥 加 密 而 言 ， 解 密使 用 的 密 钥 和 加 密使 用 的 密 钥 是 相同 的 : 

D (K, E (K, M)) =M 

因为 需要 对 称 地 使 用 密 钥 ， 所 以 密 钥 密码 学 通常 被 称 为 对 称 密码 学 ， 而 公 钥 密码 学 则 被 称 为 
不 对 称 的 ， 因 为 它 使 用 的 加 密 密 钥 和 解密 密 钥 是 不 一 样 的 。 下 面 我 们 将 描述 这 两 种 密码 学 常用 的 
一 些 加 密 算法 。 

对 称 算法 ”如 果 不 考虑 密 钥 参 数 ， 即 定义 Fx ([M]) = E (K, M)， 那 么 我 们 就 得 到 强加 密 函 数 的 
一 个 性 质 ， 即 Fx (LA) 相 对 容易 计算 ， 而 其 逆 F "(LMD) 难 于 计算 ,这样 的 函数 被 称 为 单 向 函数 。 加 
密 信息 所 使 用 方法 的 有 效 性 取决 于 具有 单 向 性 质 的 加 密 函 数 F 的 使 用 ， 也 就 是 说 ， 通 过 使 用 Fx 可 
以 抵御 下 面 的 攻击 ， 即 通过 破解 {M}x 而 得 到 M。 

对 于 下 一 小 节 将 要 介绍 的 设计 巧妙 的 对 称 算法 而 言 ，K 的 大 小 决定 了 从 明文 M 及 加 密 后 的 {M}x 
求 出 玉 的 运算 量 。 通 常 ， 最 有 效 的 也 是 最 拙劣 的 攻击 是 一 种 被 称 为 强行 攻击 的 攻击 形式 。 强 行 攻击 
方法 的 原理 是 ， 运行 所 有 可 能 的 K 值 ， 求 出 E(K，M)， 和 已 知 的 {M}x 比 较 ， 直 到 匹配 为 止 。 如 果 
天 有 AN 比特 ， 那 么 强行 攻击 找到 天 平均 要 进行 2"' 次 迭代 ， 最 多 要 进行 2* 次 选 代 。 因 此 破解 有 的 时 间 
是 天 的 比特 数 的 指数 级 时 间 。 

不 对 称 算法 ” 当 使 用 公 钥 / 私 钥 对 的 时 候 ， 单 向 函数 就 以 另外 一 种 形式 得 到 了 应 用 。 第 一 个 可 
行 的 公 角 方案 是 由 Diffie 和 Hellman{1976] 年 提出 的 ， 它 作为 一 种 密码 学 方法 ， 消 除了 通信 双方 必须 
要 互相 信任 的 前 提 。 所 有 公 和 钥 方 案 的 基础 是 陷 门 函数 。 陷 门 函 数 是 一 个 有 秘密 出 口 的 单 向 函数 
它 在 一 个 方向 是 容易 计算 的 ， 而 在 不 知道 密 钥 的 情况 下 几乎 不 可 能 求 出 其 逆 。 似 乎 寻找 这 样 的 函 
数 并 将 其 应 用 到 实际 的 密码 学 方案 中 是 Diffie: 和 Hellman 第 一 次 提出 的 。 此 后 一 些 实际 的 公 钥 方案 
陆续 被 提出 并 不 断 发 展 ， 它 们 都 依靠 使 用 大 数 函 数 作 为 陷 门 函数 。 

不 对 称 算法 所 要 使 用 的 密 钥 对 是 从 一 个 公共 根 导出 的 。7.3.2 节 描述 的 RSA 算 法 使 用 任意 选择 
的 非常 大 的 素数 对 作为 根 。 再 由 一 个 单 向 函数 从 根 导出 密 钥 对 。 在 RSA 算 法 中 ， 需 要 将 两 个 大 素 
数 相 乘 一 一 即使 使 用 非常 大 的 素数 ， 该 计算 也 只 需 几 秒 钟 就 可 完成 。 最 后 的 乘积 N 当 然 比 被 乘 数 大 
的 多 。 在 某 种 意义 上 来 说 ， 乘 法 的 使 用 就 是 单 向 函数 ， 因 为 想 从 乘积 得 到 原来 的 被 乘 数 一 即 乘 
积 的 分 解 一 一 从 计算 上 看 是 不 可 行 的 。 

密 钥 对 中 的 一 个 被 用 来 加 密 。 在 RSA 中 ， 加 密 函 数 隐藏 明文 的 方式 是 将 每 个 比特 块 作为 二 进 
制 数 ， 用 密 钼 为 指数 ， 对 其 作 求 寡 运 算 ， 再 将 结果 对 N 取 模 。 结 果 值 是 相应 的 密 文 块 。 

N 的 大 小 和 至 少 一 个 窗 钥 对 要 比 对 称 密 钥 所 需 的 安全 密 钥 尺寸 大 得 多 ， 以 保证 N 是 不 可 分 解 的 。 
因为 这 个 原因 , 强行 攻击 RSA 的 可 能 性 就 很 小 了 ， 它 对 攻击 的 抵抗 力主 要 依赖 于 分 解 N 的 不 可 行 性 。 
我 们 将 在 7.3.2 节 讨论 N 的 安全 大 小 。 

块 密码 ”大 多 数 加 密 算法 是 在 固定 大 小 的 数据 块 上 操作 的 ， 通 常 ， 块 的 大 小 为 64 比 特 。 消 息 
被 分 割 成 多 个 块 ， 必 要 时 ， 如 果 最 后 一 块 达 不 到 ， 标 准 长 度 会 被 补足 。 每 个 块 被 独立 地 加 密 。 一 
且 第 一 个 块 加 密 好 了 ， 就 可 以 用 于 传输 了 。 

对 于 简单 的 块 加 密 ， 每 个 密 文 块 的 值 都 与 前 面 的 块 无 关 。 这 样 存在 一 个 弱点 ， 攻 击 者 可 以 识 
别 重 复 的 模式 并 推导 出 它们 和 明文 间 的 关系 。 而 且 ， 消 息 的 完整 性 也 得 不 到 保证 ， 除 非 使 用 校 验 
和 或 安全 摘要 机 制 。 大 多 数 块 加 密 算 法 使 用 密码 块 链接 (CBC) 来 克服 这 些 弱点 。 

密码 块 链接 ， 在 密码 块 链接 模式 中 ， 每 个 明文 块 在 加 密 前 先 和 前 面 的 密 文 块 进行 异 或 操作 
(XOR) (参见 图 7-5) 。 解 密 时 ， 块 先 被 解密 ， 再 和 前 面 的 密 文 块 〈 应 该 将 它 保存 起 来 ) 作 XOR 操 
作 ， 从 而 得 到 原先 的 明文 。 这 种 方法 能 成 功 是 因为 XOR 操 作 是 私 等 的 ， 即 两 次 应 用 它 会 产生 原来 
的 值 。 
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CBC 意 图 防止 明文 中 的 相同 部 分 加 密 后 在 密 文 中 还 是 相同 的 。 但 在 每 个 块 序列 的 起 始 处 都 存 
在 着 一 个 弱点 一 一 如 果 我 们 要 与 两 个 目的 地 建 二 


立 加 密 的 连接 ， 并 向 其 发 送 同样 的 消息 ， 那 么 明文 块 W342 人 
加 窗 的 块 序列 就 是 一 样 的 ， 这 样 窃听 者 就 可 以 
从 中 得 到 有 用 的 信息 。 为 了 防止 这 样 的 漏洞 ， 。 密 文 块 国生 0 Wi 

我 们 需要 在 每 个 消息 的 前 面 加 一 段 不 同 的 明 

文 ， 这 样 的 明文 叫做 初始 化 向 量 。 时 间 扒 是 一 图 7-5 密码 块 链 

个 很 好 的 初始 化 向 量 ， 它 强制 每 个 消息 都 以 不 同 的 明文 块 开头 。 这 和 CBC 操 作 结合 在 一 起 ， 产 生 
的 结果 就 是 ， 即 使 用 相同 的 明文 ， 也 可 转化 成 不 同 的 密 文 。 

使 用 CBC 模 式 必须 保证 加 密 数 据 在 可 靠 的 连接 上 传输 。 任 意 密 文 块 的 丢失 都 会 导致 解密 失败 ， 
因为 解密 过 程 不 能 解密 后 续 的 密 文 块 。 因 此 它 不 太 适 合 应 用 到 第 15 章 所 描述 的 程序 中 ， 该 程序 要 
能 容忍 一 些 数据 的 丢失 。 为 此 ， 我 们 引入 流 密 码 的 概念 。 

流 密码 ”对 于 一 些 应 用 ， 例 如 对 电话 交谈 加 密 ， 块 加 密 的 方法 就 不 太 合适 了 ， 因 为 数据 流 是 
实时 产生 的 多 个 小 块 。 数 据 采样 可 以 小 到 8 比特 ， 甚 至 1 比特 。 将 它们 补足 到 64 比 特 再 加 密 并 传输 
就 显得 特别 浪费 。 流 密码 是 一 种 增 量 式 加 密 的 加 密 算法 ， 它 每 次 将 明文 中 的 1 比特 加 密 为 密 文 

这 个 提议 听 起 来 很 难 实现 ， 但 实际 上 很 容易 就 可 以 将 一 个 块 密码 算法 转换 成 流 密码 算法 ， 其 
技巧 就 在 于 构造 一 个 密 钥 流 产生 器 。 密 钥 流 是 任意 长 度 的 比特 序列 ， 通 过 将 其 和 数据 流 做 XOR 操 
作 ， 即 可 完成 加 密 的 过 程 (参见 图 7-6)。 如 果 这 个 密 钥 流 是 安全 的 ， 那 么 得 到 的 加 密 数据 流 也 是 安 
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图 7-6 流 密码 


这 种 想法 和 在 智能 社区 避免 窃听 用 到 的 “ 白 噪声 ”的 方法 是 类 似 的 。 白 噪声 就 是 在 对 室内 的 
交谈 录音 时 ， 加 入 噪声 ， 以 掩盖 谈话 内 容 。 如 果 嘲 杂 的 房间 谈话 声 和 白 噪声 是 单独 录制 的 话 ， 那 
么 可 以 从 嘲 杂 的 谈话 录音 中 去 掉 白 噪声 的 录音 ， 从 而 得 到 没有 噪声 的 谈话 内 容 。 

密 钥 流 产生 器 是 通过 对 某 个 范围 的 输入 值 重 复 地 应 用 一 个 数学 函数 ， 得 到 一 个 连续 的 输出 值 
流 而 得 到 的 。 然 后 将 输出 值 连接 起 来 组 成 明文 块 ， 再 将 这 些 块 以 收发 双方 共享 的 密 钥 加 密 。 窗 铀 
流 还 可 以 进一步 利用 CBC 来 伪装 ， 得 到 的 加 密 块 就 作为 密 钥 流 。 任 何 可 以 产生 一 组 不 相同 的 非 整 
数值 的 函数 的 迭代 都 可 以 作为 密 钥 流产 生 器 的 候选 函数 ， 但 通常 我 们 使 用 的 是 一 个 随机 数 发 生 器 ， 
其 初始 值 是 由 收发 双方 协商 决定 的 。 为 了 保证 用 于 数据 流 的 服务 的 质量 ， 密 钥 流 块 应 该 在 用 到 它 
们 之 前 产生 ， 同 时 产生 它们 的 进程 也 不 应 执行 太 多 的 操作 以 免 数据 流 被 延迟 。 

因此 ， 从 原则 上 讲 ， 在 可 以 提供 充足 的 处 理 能 力 实时 加 密 密 钥 流 的 情况 下 ， 实 时 数据 的 加 密 
可 以 像 批 处 理 数 据 一 样 安全 。 有 些 设备 ， 例 如 移动 电话 ， 可 以 从 实时 加 密 的 过 程 中 得 到 好 处 ， 但 
它 没有 功能 强大 的 处 理 器 ， 这 种 情况 下 有 必要 降低 它 的 密 钥 流 算法 的 安全 性 。 

密码 算法 的 设计 有 很 多 设计 得 很 好 的 密码 算法 ， 例 如 E (K, M) ={M}x 隐 藏 了 M 的 值 ， 并 且 找 
到 K 的 值 的 速度 不 可 能 比 执行 强行 攻击 快 。 所 有 的 加 密 算 法 都 是 基于 信息 论 [Shannon 1949] 的 原则 ， 
对 M 进 行 了 信息 保留 操作 。Schneier[1996] 将 Shannon 的 两 个 基本 原理 : 含混 和 扩散 用 于 隐藏 密 文 块 
M 的 内 容 ， 通 过 将 内 容 和 一 个 足够 大 的 密 钥 K 相 组 合 ， 来 对 付 强行 攻击 。 

含混 : 使 用 非 破坏 性 的 操作 (如 XOR) 和 循环 移 位 将 每 个 明文 块 和 密 钥 组 合 ， 产 生 一 种 新 的 
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位 模式 ， 从 而 隐藏 M 和 {AW}yx 中 各 个 块 之 间 的 关系 。 如 果 一 个 块 有 多 个 特征 ， 那 么 这 种 方法 就 可 以 
抵抗 基于 特征 频率 知识 的 分 析 。(WWII German Enigma 机 器 使 用 的 是 链 式 单 字母 块 ， 它 无 法 抵御 
统计 分 析 。) 

扩散 : 在 明文 中 通常 会 有 重复 和 宛 余 。 扩 散 是 通过 对 每 个 明文 块 调换 位 置 来 消除 规律 性 模式 。 
如 果 使 用 CBC， 稍 长 一 点 的 正文 依然 会 产生 宛 余 。 流 密码 不 能 使 用 扩散 ， 因 为 不 存在 块 。 

在 下 面 两 小 节 中 ， 我 们 将 讨论 几 个 重要 的 实用 算法 的 设计 。 这 些 算法 都 是 基于 上 述 基 本 原理 
而 设计 的 ， 它 们 也 经 过 了 严格 的 分 析 ， 可 以 抵挡 所 有 已 知 的 攻击 ， 并 有 相当 的 安全 性 。 除 了 TEA 
算法 只 是 用 于 说 明 外 ， 其 他 的 算法 都 广泛 应 用 在 一 些 需 要 强大 安全 性 支持 的 程序 里 。 其 中 有 些 算 
法 还 有 一 些小 的 漏洞 或 需要 考虑 的 地 方 ， 由 于 篇 幅 所 限 ， 我 们 不 能 在 这 里 讨论 所 有 需要 考虑 的 问 
题 ， 读 者 可 以 自己 参阅 Schneier [1996] 来 获取 更 多 的 信息 。 我 们 将 在 7.5.1 节 总 结 和 比较 这 些 算法 的 
安全 性 和 性 能 。 

不 需要 理解 密码 算法 的 读者 可 以 跳 过 7.3.1 和 7.3.2 节 。 


7.3.1 密 钥 (对 称 ) 算法 


近年 来 开发 和 发 布 了 许多 密码 算法 。Schneier[1996] 中 描述 的 对 称 算法 多 达 25 种 以 上 ， 其 中 很 
多 算法 都 被 认为 对 于 已 知 的 攻击 是 安全 的 。 我 们 在 此 只 讨论 其 中 的 三 种 。 第 一 个 是 TEA ， 因 为 其 
在 设计 和 实现 上 的 简单 性 ， 我 们 用 它 来 具体 说 明 这 一 类 算法 的 本 质 。 然 后 简单 讨论 DES 和 IDEA 算 
法 。 多 年 来 ，DES 一 直 是 美国 的 国家 标准 ， 但 现在 它 逐 渐 地 带 上 了 历史 的 色彩 ， 因 为 56 比 特 的 密 
钥 太 短 了 ， 无 法 抵抗 现代 高 性 能 硬件 的 强行 攻击 。IDEA 采 用 128 比 特 的 密 钥 ， 它 可 能 是 最 有 效 的 
对 称 块 加 密 算 法 之 一 ， 并 且 对 于 大 量 数据 的 加 密 ， 它 也 具有 多 方面 的 优点 。 
1997 年 ， 美 国 国家 标准 和 技术 研究 所 (NIST) 颁布 了 一 项 提议 ， 建 议 采 用 一 个 新 的 算法 来 代 
替 DES 作 为 新 的 高 级 加 密 标准 (AES) ，2000 年 10 月 ， 从 来 自 11 个 不 同 国家 的 密码 学 家 提交 的 21 种 
算法 中 ， 选 出 了 Rijndael 算 法 一 一 这 个 算法 因 其 健壮 性 和 高 效 性 而 脱颖而出 。 下 面 我 们 将 对 此 作 详 
细 的 介绍 。 
TEA 上 面 概 述 的 对 称 算法 的 设计 原则 在 剑桥 大 学 开发 的 微 加 密 算 法 [Wheeler and Needham 
1994] 中 得 到 了 很 好 的 说 明 。C 语 言 形式 的 加 密 函 数 如 图 7-7 所 示 。 
void encrypt(unsigned long Kk[], unsigned long text[J){ 
unsigned long » = text[0], z = text[ IJ: 
unsigned long delta = Ox9e3779b9, sum = 0; int n; 
for (n= 0;n< 32; n++){ 
sum += delta; 
y+= {((z << A) + KIOD (zitsum) s ((z >> 5) + KIID); 
z+= ((y << 4) + KI2D) A (ytsum) AT >> 5) + KL3)); 
ono = y; text[{[{] = 2; 
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图 7-7 TEA 加 密 函 数 


TEA 算 法 利用 多 轮 整数 加 法 、XOR (运算 符 “^”) 和 逻辑 移 位 (“<<” 和 “>>”) 来 完成 对 明 
文中 位 模式 的 含混 和 扩散 。 每 个 明文 块 是 64 比 特 的 ， 所 以 就 以 两 个 32 比 特 整数 的 形式 保存 在 向 量 
text[] 中 。 密 钥 是 128 比 特 的 ， 表 示 成 4 个 32 比 特 的 整数 。 

在 32 轮 的 每 一 轮 中 ， 正 文 的 两 半分 别 与 密 钥 逻辑 移动 后 的 部 分 以 及 彼此 相 组 合 ， 见 程序 的 第 5 
行 和 第 6 行 。XOR 的 使 用 和 正文 的 移 位 完成 了 含混 ， 正 文 两 部 分 的 移 位 和 交换 则 完成 了 对 明文 的 扩 
散 。 在 每 个 循环 中 ， 常 数 delta 与 正文 的 每 个 部 分 相 组 合 ， 以 免 密 钥 因 正文 中 某 部 分 没有 变化 而 泄 





人 委 会 性 185 





漏 。 解 密 函 数 是 加 密 的 逆 函 数 ， 参 见 图 7-8。 


void decrypt(unsigned long k[], unsigned long text[]) { 











unsigned long y = text[0}. 2 = text{ J; 
unsigned long delta = Ox9e3779b9, sum = delta << 5; int n; 





Jprfn= On < 32: n++)f 
z= ({y << 4) + kK[2N) (y+ sum)  ({y >> 5) + KL3)); 
y= ((z << 4) + kKIOD {z+ sum) t {((z >> 5) + KLIND); 
sum -= delta; 

2 

text[0} = yi text[1] = 2; 


} 





图 7-8 TEA 解密 函数 


这 段 程序 提供 了 一 个 安 人 全、 合理、 快速 的 密 钥 加 密 算法 。 它 比 DES 算 法 速度 快 ， 而 程序 的 简 
洁 性 也 有 助 于 优化 和 硬件 实现 。128 比 特 的 密 钥 足 以 对 付 强行 攻击 。 它 的 作者 和 其 他 人 只 发 现 了 两 
个 很 小 的 漏洞 ， 在 [Wheeler and Needham 1997] 中 有 详细 描述 。 

为 了 说 明 它 的 使 用 ， 图 7-9 给 出 了 一 个 简单 的 使 用 TEA 的 程序 ， 可 以 对 以 前 打开 的 文件 进行 加 
密 或 者 解密 (使 用 了 C stdio 库 ) 。 


void tea{ char mode, FILE *infile, FILE *outfile, unsigned long kIJ){ 
/* mode is 'e' for encrypt, 'd' for decrypt, k[] is the key.*/ 
char ch, Text[/8]: int i: 


while{!feoftinfile) { 





i= fread({Text, 1, §, infile). /* read 8 bytes from infile into Text */ 
if (i <= 0) break: 

while (i < 8){ Textfit++]= '",} /* pad last block with spaces */ 
switch {mode) { 

Case 'e'. 


encrypi(k, (unsigned long*) Text): break; 
case 'd': 
decrypt{k, (unsigned long*) Text); break: 
2 
fwrite{ Text, 1, §8, outfile); /* write § bytes from Text to outfile */ 





加 


DES 数据 加 密 标准 (DES) [National Bureau of Standards 1977] 由 IBM 开 发 ， 随 后 被 采用 为 
美国 的 国家 标准 ， 在 政府 和 商业 中 应 用 。 在 这 个 标准 中 ， 加 密 函 数 用 56 比 特 的 密 钥 将 64 比 特 的 明 
文 映射 成 64 比 特 的 密 文 。 算 法 中 有 16 个 依赖 密 钥 的 阶段 ， 被 称 为 轮 (round) 。 每 个 轮 中 ， 要 加 密 
的 数据 都 会 根据 由 窗 钥 决定 的 一 组 比特 和 三 个 不 依赖 密 钥 的 移 位 值 转换 每 个 比特 的 位 置 和 值 。 使 
用 20 世 纪 70~80 年 代 计 算 机 上 的 软件 来 实现 该 算法 是 非常 耗 时 的 ， 但 它 可 以 在 高 效 的 VLSI 硬 件 中 实 
现 ， 并 且 可 以 轻松 地 集成 到 网 络 接口 和 其 他 的 通信 芯片 上 。 

1997 年 6 月 ， 一 次 著名 的 强行 攻击 改写 了 DES 未 被 攻破 的 历史 。 此 次 攻击 是 在 一 次 竞赛 中 ， 为 
了 演示 低 于 128 比 特 的 密 钥 缺乏 安全 而 进行 的 [www.rsasecurity.com I。 这 次 攻击 是 由 一 个 因特网 用 


户 社团 召集 了 1000~ 14 000 台 计算 机 (PC 及 工作 站 )， 并 在 上 面 运行 相应 的 客户 程序 完成 的 [Curtin 
and Dolske 1998]。 





图 7-9 TEA 的 应 用 
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客户 程序 的 目的 是 破解 出 在 已 知 的 明文 / 密 文 采样 中 使 用 的 密 钥 ， 并 用 它 解密 出 原来 加 密 的 消 
息 。 客 户 与 一 个 服务 器 交互 ， 服 务 器 负责 协调 客户 的 工作 ， 向 它们 发 送 要 检查 的 一 段 密 钥 值 ， 并 
从 客户 处 接收 相应 的 进展 报告 。 一 般 客 户 计算 机 将 客户 程序 作为 一 个 后 台 活 动 运行 ， 其 性 能 相当 
于 200MHz 的 Pentium 处 理 器 。 密 钥 在 12 周 内 被 破解 ， 检 查 的 值 占 所 有 可 能 值 (2 或 6 x 10") 的 约 
25%。1998 年 ， 由 Electronic Frontier Foundation[EFF 1998] 开 发 的 机 器 可 以 用 三 天 左右 的 时 间 成 功 
地 破解 DES 密 钥 。 

尽管 在 很 多 商业 和 其 他 应 用 中 依然 使 用 DES 算 法 ,但 应 该 认为 基本 的 DES 已 经 过 时 了 。 目 前 常 
用 的 一 种 算法 被 称 为 三 重 DES 加 密 算 法 (或 3DES) [ANSI 1985，Schneier 1996]。 它 包括 利用 两 个 
密 钥 K, 和 XK,， 并 使 用 三 次 DES、。 

Espes (Ki, Ks, M) = Epss (Ki, Dogs (Ks, Epes (K, M))) 

这 相当 于 给 出 了 一 个 112 比 特 的 密 钥 ， 也 就 有 了 充足 力量 对 付 强 行 攻击 。 但 其 缺点 是 效率 低 ， 
因为 它 是 将 一 个 按 现代 标准 来 说 比较 慢 的 算法 应 用 了 3 次 。 

IDEA 国际 数据 加 密 算法 (IDEA) 是 在 20 世 纪 90 年 代 初 作为 DES 的 替代 者 被 开发 出 来 的 [Lai 
and Massey 1990，Lai 1992]。 像 TEA 一 样 ， 它 使 用 128 比 特 的 密 钥 来 加 密 64 比 特 的 块 ， 它 主要 基于 
群 代数 ， 有 8 轮 XOR、 模 2 的 加 法 和 乘法 。 对 DES 和 IDEA 而 言 ， 同 样 的 函数 既 可 以 用 于 加 密 ， 也 
可 以 用 于 解密 : 这 个 性 质 对 于 能 在 硬件 上 实现 的 算法 非常 有 用 。 

IDEA 也 被 进行 了 广泛 的 分 析 ， 还 没有 发 现 重大 的 漏洞 。 它 加 密 和 解密 时 间 约 为 DES 的 3 倍 。 

RC4 RC4 是 一 种 由 Ronald Rivest[Rivest 1992a] 发 明 的 流 密码 。 窗 码 长 度 不 超过 256 字 节 。 
RC4 很 容易 实现 [Schneier 1996, pp.397-8] ， 而 且 加 密 与 解密 的 效率 约 为 DES 算 法 的 10 倍 。 因 此 ， 
RC4 算 法 一 度 被 大 量 的 产品 广泛 使 用 ， 包 括 IEEE 802.11 WiFi 网 络 ， 但 不 久之 后 ，Fluhrer 等 人 
[2001] 就 发 现 了 这 个 算法 的 缺陷 ， 针 对 这 个 缺陷 攻击 者 可 以 破解 一 些 密 钥 ， 这 也 导致 了 802.11 安 全 
模块 的 重新 设计 ( 见 7.6.4 节 的 进一步 讨论 )。 

AES 被 美国 NIST 选 做 高 级 加 密 标 准 算 法 的 Rijndael 算 法 是 由 Joan Daemen 和 Vincent 
Rijmen[Daemen and Rijmen 2000, 2002] 发 明 的 。 算 法 中 密码 块 的 大 小 和 窗 钥 的 长 度 都 是 可 变 的 ， 
密 钥 长 度 可 以 为 128、192 或 256 比 特 ， 密 码 块 的 大 小 可 以 是 128、192 或 256 比 特 。 窗 码 块 的 大 小 和 
密 钥 的 长 度 都 可 以 扩展 为 32 比 特 的 整数 倍 。 算 法 根据 密码 块 的 大 小 和 密 钥 的 长 度 需要 9~ 13 轮 完成 。 
Rijndael 算 法 可 以 被 很 多 处 理 器 实现 ， 也 可 以 通过 硬件 实现 。 

7.3.2 公 钥 (不 对 称 ) 算法 

至 今 只 开发 了 少数 几 个 实用 的 公 角 方案。 它们 都 使 用 大 数 的 陷 门 函数 来 产生 密 钥 。 密 钥 K. 和 KK, 
是 一 对 很 大 的 数 ， 而 加 密 函 数 用 它们 其 中 之 一 做 运算 ， 如 对 M 作 求索 运算 。 解 密 时 使 用 另外 一 个 密 
钥 的 一 个 类 似 的 国 数 。 如 果 求 寡 过 程 中 使 用 了 模 运 算 ， 可 以 证 明 结 果 和 AM 的 原 值 是 相同 的 ， 即 

D (Ks, E (K,., M)) =M 

想 要 和 别人 进行 安全 通信 的 主体 产生 一 对 密 钥 K. 和 Ks， 并 对 解密 密 钥 Ks 加 以 保密 ， 而 加 密 密 
钥 K。 可 以 公开 ,以 供 任何 想 要 和 他 通信 的 人 使 用 。 加 密 窗 钥 K. 可 以 看 成 单 向 加 密 函 数 E 的 一 部 分 ， 
而 Ks 是 使 得 主体 p 能 够 转换 出 加 窗 内 容 的 秘密 信 息 。 所 有 KK. 的 拥有 者 都 可 以 将 消息 加 密 为 {M}x， 
而 只 有 拥有 密 钥 天 ,的 主体 才 可 以 操作 这 个 陷 门 。 

大 数 函 数 的 使 用 造成 在 计算 函数 E 和 D 时 有 很 大 的 运算 开销 。 我 们 后 面 可 以 看 到 ， 这 个 问题 的 
解决 方法 是 仅 在 安全 通信 会 话 的 初始 阶段 使 用 公 钥 。RSA 算 法 显然 是 使 用 最 为 广泛 的 公 和 钥 算法 ， 
我 们 将 详细 介绍 它 。 另 一 类 算法 是 基于 平面 椭圆 曲线 行为 派生 的 函数 。 这 些 算法 具有 同样 级 别 的 
安全 性 ， 提 供 了 用 低 开销 加 密 / 解 密 函 数 的 可 能 ， 但 它们 的 实际 应 用 还 不 是 很 先进 ， 我 们 仅 简要 地 
说 明 一 下 。 

RSA Rivest、Shamir 和 Adelman (RSA) 设计 的 公 钥 密码 [Rivest et al. 1978] 基 于 两 个 大 素数 
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(大 于 10'”) 乘积 的 使 用 ， 其 基本 思想 就 是 分 解 大 整数 的 素 因 子 的 计算 是 非常 困难 的 ， 不 可 能 有 效 
地 计算 出 来 。 

尽管 人 敌 了 广泛 的 研究 ， 但 还 没有 发 现 RSA 的 漏洞 ， 它 现在 被 广泛 使 用 。 下 面 将 给 出 RSA 方 法 
的 概述 。 要 找到 密 钥 对 e，d: 

1) 选择 两 个 大 素数 ，P 和 2@C (每 个 数 都 大 于 10'”)， 并 且 计 算 : 

N=PxQ 
Z=(P-UDx(O-1) 
2) 对 于 id， 选择 任意 和 Z 互 质 的 数 〈 也 就是， 数 4 和 Z 没 有 公 因 子 ) 。 
我 们 用 比较 小 的 素数 P 和 @ 来 说 明 计 算 的 过 程 : 
P=13，C@=17 一 N=221，Z= 192 
d=5 
3) 为 找 出 e， 求 下 列 等 式 : 
exd= ipmodZ 

也 就 是 说 ，exd 是 在 Z+1，2Z+1，3ZH1，，…… 序列 中 ， 能 被 4 整除 的 最 小 数 。 

exd=] mod 192=1, 193, 385, <.. 

385 可 被 4 整除 

e=385/5=77 

为 了 使 用 RSA 方 法 加 密 正 文 ， 明 文 被 分 成 长 度 为 比特 的 块 ， 其 中 2: < N (也 就 是 说 ， 一 个 块 

的 数字 值 总 是 小 于 N; 在 实际 应 用 中 ，K 通 常 在 5312~ 1024 之 间 ) 。 
大 =7， 因 为 27= 128 

加 密 明文 MM 中 一 个 块 的 函数 是 : 

E'(le,N,M)=M: modN 

对 于 消息 M， 窗 文 就 是 M” mod 221 
将 加 密 正 文 c 的 一 个 块 解密 成 原 明 文 块 的 函数 是 : 

D'(d,N,c)=c modN 

Rivest、Shamir 和 Adelman 证 明 ， 对 于 满足 0<P<N 的 所 有 P，E' 和 DD 是 互 逆 的 ( 即 ，EK(D'(x)) = 
DE'(x)) = x)。 

参数 e，N 可 以 看 成 加 密 函 数 的 密 钥 ， 类 似 地 ，d 和 NN 可 以 看 成 解密 函数 的 密 钥 。 于 是 我 们 可 以 
写 出 K.=<e，N> 和 Ks= <d, N>， 并 且 得 到 加 密 函 数 是 E(K。, M) = {M} (注意 这 里 指出 了 加 密 的 消 
息 只 能 由 私 钥 Ks 的 所 有 者 来 解密 )， 解 密 函数 是 D(K,, {M}w)=M。 

值得 注意 的 是 ， 所 有 的 公 钥 算法 都 有 一 个 潜在 的 弱点 ， 因 为 公 钥 对 于 攻击 者 也 是 公开 的 ， 他 
们 可 以 很 容易 地 产生 加 密 消息 。 这 样 他 们 就 可 以 穷 举 任意 的 比特 序列 ， 将 它 加 密 后 ， 与 未 知 的 加 
窗 消 息 比较 ， 直 到 获得 匹配 为 止 。 这 种 攻击 也 称 为 明文 选择 攻击 。 这 种 攻击 可 以 通过 确保 消息 比 
密 钥 长 来 破解 ， 此 时 破解 明文 的 复杂 度 就 已 经 超过 了 破解 了 密 钥 的 复杂 度 ， 所 以 这 种 类 型 的 强制 
攻击 其 实 还 不 如 对 密 钥 直接 攻击 。 

一 个 秘密 信息 的 准 接收 者 必须 公布 或 发 布 <e, N> 对 ， 而 自己 保留 4。 公 布 <e, N> 对 并 不 损害 d 的 
安全 性 ， 因 为 想 要 知道 4 必须 知道 最 初 的 两 个 素数 P 和 Q， 而 这 ， 又 只 有 对 NN 进行 分 解 才 能 做 到 。 对 
于 大 数 的 因 式 分 解 (我 们 提 到 P 和 Q 都 是 >10'" 的 ， 于 是 N>10””) 即使 是 在 性 能 很 高 的 计算 机 上 ， 
也 是 非常 耗 时 的 。1978 年 ，Rivest 等 人 得 出 结论 ， 按 照 已 知 的 最 好 的 算法 ， 在 每 秒 执行 100 万 条 指 
令 的 计算 机 上 ， 分 解 一 个 规模 为 10*™ 的 数 ， 所 花费 的 时 间 将 超过 40 亿 年 ， 而 类 似 的 计算 任务 在 现 
在 的 计算 机 上 只 需要 100 万 年 即 可 完成 。 

RSA 组 织 公 布 了 一 系列 对 100 比 特 以 上 十 进 制 数 的 分 解 挑战 [www.rsasecurity.com II]。 编 写 这 
本 书 的 时 候 ，174 比 特 十 进 制 数字 ( 约 576 比 特 的 二 进 制 数字 ) 被 成 功 分 解 了 ， 这 使 我 们 对 使 用 512 
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比特 密 钥 的 RSA 的 安全 性 产生 了 怀疑 。RSA 组 织 (拥有 RSA 算 法 的 专利 权 ) 建议 采取 至 少 768 比 特 
( 即 230 比 特 十 进 制 数字 ) 长 的 密 钥 才能 保证 长 期 ( 约 为 20 年 ) 的 安全 性 。 一 些 程序 中 已 用 到 了 
2048 比 特 的 密 钥 。 

以 上 这 些 计算 都 假设 现在 知道 的 分 解 算 法 是 可 用 的 最 佳 算法 。 对 于 RSA 和 其 他 使 用 大 素数 乘 
法 作为 它们 单 向 函数 的 不 对 称 算法 ， 在 发 现 更 好 的 分 解 算法 后 必 将 会 变 得 很 脆弱 。 

椭圆 曲线 算法 ”目前 已 经 开发 并 测试 了 一 个 基于 椭圆 曲线 的 性 质 生 成 公 钥 / 私 钥 对 的 方法 。 详 
细 的 内 容 可 以 参见 Menezes 以 这 个 主题 写 的 书 [Menezes 1993]。 密 钥 来 源 于 一 个 与 RSA 不 同 的 数学 
分 支 ， 它 们 的 安全 性 不 是 建立 在 分 解 大 数 的 困难 性 的 基础 上 的 。 短 一 些 的 密 钥 也 可 以 是 安全 的 ， 
加 密 和 解密 所 需 的 运算 需要 也 远 小 于 RSA。 椭 加 曲线 加 密 算法 可 能 在 将 来 得 到 更 为 广泛 的 应 用 ， 
尤其 是 对 于 那些 包含 了 移动 设备 的 系统 ， 因 为 它们 的 处 理 资 源 很 有 限 。 由 于 该 算法 相关 的 数学 知 
识 包括 了 椭圆 曲线 一 些 非常 复杂 的 性 质 ， 所 以 本 书 不 再 详细 讨论 。 
7.3.3 混合 密码 协议 

公 钥 密码 学 对 电子 商务 而 言 是 很 便利 的 ， 因 为 它 不 需要 安全 的 密 钥 分 发 机 制 (当然 还 需要 对 
公 钥 进行 认证 ， 不 过 这 并 不 麻烦 ， 只 需 和 密 钥 一 起 发 送 成 为 一 个 公 角 证 书 就 可 以 了 )。 但 公 钥 密码 
的 运算 开销 巨大 ， 甚 至 对 电子 商务 中 经 常 遇 到 的 中 等 大 小 的 消息 加 密 也 是 这 样 。 大 多 数 大 规模 分 
布 式 系统 中 所 采取 的 解决 办 法 是 ， 使 用 混合 加 密 方案 ， 其 中 公 钼 密码 用 来 认证 通信 的 双方 和 对 密 
钥 交 互 进行 加 密 ， 这 个 密 钥 将 用 于 随后 所 有 的 通信 中 。 我 们 将 在 7.6.3 节 的 TLS 实 例 研 究 中 讨论 混合 
协议 的 实现 。 


7.4 数字 签名 


强大 的 数字 签名 功能 是 安全 系统 的 一 个 基本 需求 。 数 字 签 名 可 用 于 证 明 某 些 信息 的 场合 ， 例 
如 为 了 提供 可 信赖 的 声明 ， 可 将 用 户 的 身份 绑 定 到 他 们 的 公 钥 上 ， 或 者 将 一 些 访问 权限 和 角色 绑 
定 到 用 户 的 身份 上 。 

在 各 种 商业 和 个 人 交易 中 ， 数 字 签 名 的 必要 性 毋庸 置疑 。 从 文档 出 现 伊始 ， 手 写 签名 就 作为 
一 种 文件 证 明 ， 用 来 满足 收 件 人 在 以 下 方面 证 明文 档 的 需要 ， 

* 可 信 性 ; 它 使 收 件 人 确信 签名 者 特意 对 该 文 挡 进行 了 签名 ， 并 且 文 档 没 有 被 其 他 人 篡改 。 

“不 可 伪造 性 : 它 证 明了 是 签名 者 本 人 而 不 是 他 人 特意 签名 了 文档 。 该 签名 不 能 被 拷贝 和 置 于 

其 他 文档 上 。 

* 不 可 抵赖 性 ， 签名 者 不 能 否认 他 们 对 该 文档 进行 了 签名 。 

事实 上 ， 使 用 传统 的 签名 不 能 完全 获得 上 述 我 们 所 希望 的 签名 性 质 ， 因 为 难以 检测 签名 是 否 
被 伪造 和 拷贝 ,而且 文 档 在 签名 后 可 以 被 自 改 ， 有 时 候 等 名 者 在 无 意 间或 在 不 知情 的 情况 下 被 骗 
对 文档 进行 了 签名 ， 但 是 考虑 到 欺骗 有 一 定 的 难度 且 被 查获 后 要 承担 的 责任 ， 我 们 可 以 接受 这 种 
威胁 。 与 手写 签名 类 似 ， 数 字 签 名 是 将 一 个 唯一 的 且 秘密 的 签名 者 属性 绑 定 到 文档 中 。 在 手写 签 
名 中 ， 该 秘密 即 为 签名 者 的 手写 体 模式 。 

保存 在 存储 的 文件 或 消息 中 的 数字 文档 的 性 质 和 纸 质 文档 的 性 质 完全 不 同 。 数 字 文档 一 般 很 
容易 生成 、 拷 贝 和 改变 。 简 单 地 将 作者 的 身份 信息 附加 在 文档 之 后 ， 无 论 是 一 个 文本 字符 串 、 一 
张 照片 还 是 一 副手 写 体 图 像 ， 对 于 验证 而 言 没 有 任何 价值 。 

因此 需要 这 样 一 种 方法 ， 它 将 签名 者 的 身份 信息 绑 定 到 代表 文档 的 整个 比特 序列 上 ， 并 且 该 
操作 不 可 撤销 。 这 应 该 满足 了 上 述 的 第 一 个 需求 一 一 可 信 性 。 和 手写 签名 一 样 ， 文 档 的 日 期 不 能 
由 签名 所 保证 ， 签 名 文档 的 接收 方 只 知道 文档 在 接收 前 已 经 被 签名 了 。 

至 于 不 可 抵赖 性 ， 还 存在 这 样 一 个 问题 ， 该 问题 并 非 源 于 手写 签名 。 如 果 签 名 者 故意 泄漏 了 
他 们 的 私 钥 并 且 随后 否认 了 已 签名 的 文档 ， 他 们 声称 由 于 私 钥 并 非 私 有 ， 签 名 可 能 是 其 他 人 做 的 ， 
那 又 当 如 何 ? 在 “不 可 抵赖 数字 签名 ”[Schneier 1996] 的 主题 下 ， 已 经 设计 出 一 些 协议 来 解决 这 个 
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问题 ， 但 是 它们 相当 复杂 。 

一 个 带 有 数字 签名 的 文档 比 手写 签名 更 难于 伪造 ， 但 是 “原始 文档 ”对 于 数字 文档 意义 并 不 
大 。 正 如 我 们 将 从 对 电子 商务 需求 的 讨论 中 所 看 到 的 那样 ， 数 字 签 名 本 身 并 不 能 防止 电子 货币 的 
两 次 支付 一 一 还 需要 其 他 的 措施 来 防范 这 种 问题 。 我 们 现在 将 描述 用 于 以 数字 方式 签署 文档 的 两 
种 技术 ， 它 们 都 依赖 密码 技术 的 使 用 ， 将 主体 的 身份 信息 绑 定 到 文档 中 。 

数字 签名 ”主体 4 可 以 通过 使 用 密 钥 天 加密 电子 文档 或 消息 M 并 且 将 加 密 的 信息 附加 到 M 的 明 
文 和 A 的 标识 上 ， 从 而 完成 对 M 的 签名 。 因 此 签名 后 的 文档 包括 M，A，[M]x,。 签 名 可 以 被 随后 接 
收文 档 的 主体 验证 以 确定 文档 是 由 A 发 出 的 ， 并 且 包 含 的 内 容 M 未 被 自 改 。 

如 果 使 用 一 个 密 钥 来 加 密 文档 ， 则 只 有 共享 该 密 钥 的 主体 可 以 验证 这 个 签名 。 但 是 如 果 使 用 
公 角 密码 ， 那 么 签名 者 使 用 他 自己 的 私 钥 加 密 ， 任 何人 只 要 拥有 相应 的 公 钥 就 可 以 验证 该 签名 。 
这 是 对 传统 签名 更 好 的 模拟 ， 它 满足 了 更 为 广泛 的 用 户 需 要 。 签 名 的 验证 过 程 根据 用 以 产生 签名 
的 是 密 钥 密码 还 是 公 和 钥 密 码 而 有 所 不 同 。 这 两 种 情形 将 分 别 在 7.4.1 节 和 7.4.2 节 给 予 曾 述 。 

摘要 函数 ”摘要 函数 也 称 为 安全 散 列 沪 数 ， 用 H(M) 表 示 。 必 须 仔 细 设 计 摘 要 函数 以 确保 对 所 
有 可 能 的 消息 对 M 和 M'， 函 数值 HM) 和 H(M') 一 定 不 同 。 如 果 存 在 不 同 消息 M 和 M' 使 H(M)=H(M')， 
那么 会 出 现下 述 情况 : 一 个 不 诚实 的 主体 发 送 了 消息 M， 但 是 当面 临 问题 时 ， 他 可 以 声称 他 发 送 的 
原始 消息 是 M'， 并 且说 消息 一 定 是 在 传送 途中 被 自 改 了 。 我 们 将 在 7.4.3 节 讨论 这 些 安全 散 列 函数 。 


7.4.1 公 钥 数字 签名 1 
公 钥 密码 特别 适合 于 生成 数字 签名 ， 因 为 它 相 对 简单 且 不 需要 文档 接收 者 、 文 档 签 名 者 或 任 





何 第 三 方 之 间 的 通信 。 m 
A 给 消息 M 签 名 ，B 进 行 认证 的 方法 如 下 ( 见 Me i i 
图 7-10): SE Pm | 
1) 4 产生 一 个 密 钥 对 Kb, 和 Ki,， 并 且 把 公 7 
钥 Kwwo 发 布 出 去 ， 放 在 一 个 大 家 都 知道 的 地 方 。 | 半 |! 
2) 4 使 用 一 个 大 家 认可 的 安全 散 列 函数 计 I 
算 消息 M 的 摘要 H(M)， 并 用 私 钥 K,, 加 密 摘要 来 一: 
产生 签名 $= {H(M)}xpriv。 (DK) Ns 


3) A 把 已 签名 的 消息 [MIx=M，5 发 送 给 B。 验证 Ww 


4) B 用 公 和 钥 K,,s 解 密 S 并 且 计 算 M 的 摘要 len eh h=h'? 
H(M)。 如 果 结 果 和 解密 所 得 的 摘要 相 一 致 就 说 明 过 
签名 是 有 效 的 。 


RSA 算 法 非常 适合 用 来 构造 数字 签名 。 注意 ， 图 7-10 公 钥 的 数字 签名 
这 里 签名 者 的 私 钥 是 用 来 加 密 签名 的 ， 这 与 秘密 
传输 数据 时 ， 接 收 者 用 公 钥 来 加 密 数 据 的 情形 相反 。 解 释 这 种 差别 是 非常 简单 的 ， 一 个 签名 只 能 
用 只 有 签名 者 知道 的 密 钥 来 建立 ， 但 此 签名 可 以 被 所 有 人 认证 。 
7.4.2 密 钥 数字 签名 一 一 MAC 
一 个 密 钥 加 密 算 法 不 应 该 用 于 加 密 数 字 签名 并 没有 什么 技术 上 的 原因 ， 但 是 为 了 验证 这 样 的 
签名 ， 密 钥 必 须 被 透露 出 去 ， 这 会 造成 一 些 问题 : 
* 签名 者 必须 安排 验证 者 接收 用 来 进行 可 靠 签 名 的 密 钥 。 
* 在 某 些 上 下 文 和 不 同 的 时 刻 ， 有 必要 进行 认证 : 在 签名 时 ,签名 者 可 能 不 知道 验证 者 的 身份 。 
为 了 解决 这 个 问题 ， 验 证 可 以 委托 给 一 个 可 信赖 的 第 三 方 机 构 完成 ， 该 机 构 持 有 所 有 签名 者 
的 密 钥 ， 但 是 这 增加 了 安全 模型 的 复杂 度 并 且 要 求 与 可 信 的 第 三 方 进行 安全 通信 。 
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。 我 们 不 希望 透露 用 于 签名 的 密 钥 ， 因 为 这 会 前 弱 签 名 的 安全 性 ， 一 个 签名 可 以 被 一 个 密 钥 持 
有 人 伪造 ， 而 该 持 有 人 未 必 是 密 钥 的 合法 拥有 者 。 
鉴于 上 述 原因 ， 用 公 钥 方法 来 产生 和 验证 签名 在 大 多 数 情况 下 提供 了 最 便利 的 解决 方案 。 
当 一 个 安全 通道 被 用 来 传输 未 加 密 的 消息 ， 但 是 需要 证 实 消 息 的 真实 性 时 会 出 现 例 外 。 因 为 
-个 安全 通道 在 一 对 进程 之 间 提 供 了 安全 通信 ， 可 以 使 用 7.3.3 节 介绍 的 混合 方法 建立 共享 的 密 钥 
并 用 它 生成 低 开销 的 签名 。 这 些 签名 称 为 消息 认证 码 (Message Authentication Code, MAC) ， 这 个 
名 字 可 以 反映 出 它们 有 限 的 目的 一 一 它们 基于 一 ,ee 签名 的 文档 


1 1 
个 共享 的 秘密 ， 在 一 对 主体 之 间 认证 通信 。 Je 
一 个 基于 共享 密 钥 的 低 开销 签名 技术 (如 图 图- 全 


7-11 所 示 ) 可 以 为 许多 不 同 的 目的 提供 足够 的 安 





| 

1 | 

| | | 

全 保障 ， 我 们 将 在 下 面 进行 阐述 。 这 种 方法 基于 Le, 
安全 通道 的 存在 ， 通 过 该 通道 ， 共 享 的 密 钥 可 以 
被 分 发 出 去 : UL 一 


M 


和 
1 
1 
I 
| h=h"? 
| HM+K) hh 
一 一 一 一 


大. 到 


一 | 


1) 4 产生 一 个 随机 密 钥 K 用 以 签名 ,并 且 通 过 i 
安全 通道 将 K 分 发 给 一 个 或 多 个 需要 认证 4 发 出 的 1 
消息 的 主体 。 这 些 主体 是 受信 任 的 ， 不 会 泄漏 共 验证 

1 


全 


享 密 钥 。 

2) 对 于 4 和 希望 签名 的 任何 文档 M，4 将 M 和 天 
连接 起 来 ， 计 算 连 接 结果 的 摘要 : h= H(M+K)， 图 7-11 使 用 共享 密 钥 的 低 开销 签名 
然后 将 签名 好 的 文档 L[M]x = M，h 发 给 任何 希望 验 
证 签名 的 人 (摘要 /是 一 个 MAC)。 由 于 散 列 函数 完全 模糊 了 天 的 值 ， 因 此 天 不 会 因为 pz 的 泄漏 而 受 
到 损害 。 

3) 接收 者 B 将 密 钥 K 和 接收 到 的 文档 M 连 接 起 来 ， 计 算 摘 要 包 = HCM+K)。 如 果 h=h'， 那 么 签名 
即 得 到 验证 。 

虽然 这 种 方法 有 上 述 的 不 足 ， 但 是 由 于 它 不 涉及 加 密 ， 因 此 拥有 性 能 上 的 优势 (通常 安全 散 
列 比 对 称 加 密 快 3 一 10 倍 ， 见 7.5.1 节 )。7.6.3 节 描述 的 TLS 安 全 通道 协议 支持 MAC 的 广泛 运用 ， 包 
括 这 里 叙述 的 方案 。 该 方法 也 可 用 于 Millicent 电 子 货币 协议 [www.cdk4.net/security]， 在 该 协议 中 
为 小 金额 交易 保持 低 处 理 开销 是 尤为 重要 的 。 


7.4.3 安全 摘要 函数 


有 许多 种 方法 可 产生 固定 长 度 的 比特 模式 ， 这 些 比特 模式 可 以 刻画 一 个 任意 长 度 的 消息 和 文 
档 。 也 许 最 简单 的 方法 是 反复 用 XOR 操 作 来 组 合 源 文档 的 固定 长 度 片断 。 这 样 的 一 个 函数 经 常用 
于 在 通信 协议 中 进行 错误 检测 ， 主 要 是 用 它 生 成 一 个 能 刻画 消息 的 较 短 的 、 定 长 的 散 列 值 ， 但 是 
它 作 为 数字 签名 方案 的 基础 还 不 够 。 一 个 安全 摘要 函数 h=H(M) 应 该 有 以 下 性 质 : 

1) 给 定 M， 很 容易 计算 h。 

2) 给 定 h， 很 难 算出 M。 

3) 给 定 M， 很 难 找 到 其 他 消息 M'， 使 得 HCM)=H(M')。 

这 样 的 函数 也 称 为 单 向 散 列 函数 ， 这 个 名 字源 于 前 两 个 性 质 。 性 质 3 要 求 额外 的 特性 : 即使 我 
们 知道 散 列 函 数 的 结果 不 能 保证 唯一 (因为 摘要 是 一 个 信息 减损 的 转化 过 程 )， 我 们 需要 保证 ， 即 
使 知道 产生 散 列 值 h' 的 消息 M， 攻 击 者 也 不 能 找到 其 他 的 具有 相同 散 列 值 的 消息 M'。 如 果 攻 击 者 
可 以 做 到 这 一 点 ， 那 么 他 们 可 以 不 需要 知道 签名 密 钥 ， 就 从 已 签名 文档 M 中 拷贝 签名 并 附加 在 M' 
上 ， 从 而 伪造 签名 文档 M'。 

必须 承认 ， 经 过 散 列 后 具有 相同 散 列 值 的 消息 的 集合 是 有 限 的 ， 攻 击 者 产生 一 个 有 意义 的 伪 
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造 签名 会 十 分 困难 ,但 是 如 果 有 了 耐心 ， 他 还 是 能 办 到 的 ， 所 以 必须 对 此 进行 防范 。 在 生日 攻击 
(birthday attack) 情况 下 这 种 可 能 性 显著 增加 : 

1) Alice 给 Bob 人 准备 了 两 个 合同 版 本 M 和 M'， 对 Bob 而 言 ，M 是 有 意义 的 ， 而 M' 对 他 没有 意义 。 

2) Alice 制 作 了 M 和 M' 的 只 有 几 个 细微 差别 的 不 同 版 本 ,例如 在 行 尾 增加 空格 等 ， 两 个 版 本 的 
差别 在 视觉 上 难以 分 辨 。 她 比较 所 有 的 M 和 MM' 的 散 列 值 ， 如 果 她 发 现 两 个 值 是 相同 的 ， 她 可 以 进 
行 下 一 步 ， 如 果 不 相同 ， 她 继续 产生 两 个 文档 具有 细微 差别 版 本 ， 直 到 两 个 文档 产生 匹配 的 散 列 
值 为 止 。 

3) 当 她 获得 一 对 有 着 相同 散 列 值 的 文档 M 和 M' 时 ， 她 把 有 意义 的 文档 M 给 了 Bob， 让 Bob 用 他 
的 私 钥 对 文档 进行 数字 签名 。 当 Bob 把 签 好 的 文档 发 回 给 Alice， 她 可 以 用 和 MM 匹配 的 没有 意义 的 版 
本 M' 赫 换 M， 并 且 保 留 着 从 M 得 来 的 签名 。 

如 果 我 们 的 散 列 值 有 64 比 特长 ， 那 么 平均 只 要 22 个 MH 和 好 的 版 本 就 可 以 进行 攻击 。 这 个 值 太 
小 了 难以 让 人 放心 ， 因 此 我 们 需要 使 散 列 值 至 少 达到 128 比 特长 才 足 以 防范 这 类 攻击 。 

这 种 攻击 依赖 于 统计 学 悖 论 ， 即 所 谓 的 生日 悖 论 (birthday paradox ) 在 给 定 的 一 个 集合 
中 找到 一 个 匹配 对 的 概率 远 远大 于 在 其 中 寻找 与 给 定 的 个 体 匹配 的 概率 。Stallingsf1999] 为 这 种 在 
一 个 有 n 个 人 的 集合 中 存在 两 个 具有 相同 生日 的 人 的 概率 给 出 了 统计 学 的 推导 。 结 果 是 ， 从 只 有 23 
个 人 的 集合 中 寻找 一 对 生日 相同 的 人 的 概率 ， 与 从 253 人 中 寻找 在 某 一 个 指定 的 日 期 过 生日 的 人 的 
概率 是 相同 的 。 

为 了 满足 上 述 性 质 ， 必 须 小 心 设计 安全 摘要 函数 。 使 用 的 比特 级 操作 和 它们 的 先后 类 序 与 对 
称 密码 学 相似 ， 但 是 在 这 种 情况 下 操作 不 必 保 存 信息 ， 因 为 函数 不 需要 是 可 逆 的 ， 所 以 安全 摘要 
函数 可 以 利用 任何 算术 方法 和 基于 比特 位 的 逻辑 操作 。 源 文本 的 长 度 通常 包含 在 摘要 数据 里 。 

在 实际 应 用 中 ， 广 泛 应 用 的 两 个 摘要 函数 是 MD5 算 法 (之 所 以 这 样 命名 是 因为 它 是 由 Ron 
Rivest 开 发 的 消息 摘要 算法 系列 中 的 第 5 个 ) 和 SHA-1 (安全 散 列 算法 ) ， 这 两 个 算法 被 美国 国家 标 
准 和 技术 研究 所 (NIST) 采纳 为 标准 。 这 两 个 算法 都 经 过 仔细 测试 和 分 析 ， 可 以 充分 满足 可 预见 
的 将 来 的 安全 需要 ， 同 时 它们 的 实现 相当 高 效 。 我 们 在 这 里 只 给 出 简短 的 描述 。Schneier [1996] 和 
Mitchell 等 人 [1992] 对 数字 签名 技术 和 消息 摘要 函数 给 出 了 详细 的 综述 。 

MD5 MD5 算 法 [Rivest 1992] 共 有 4 轮 操作 ， 源 文本 以 512 比 特 为 一 块 ， 每 一 块 又 划分 为 16 个 
32 比 特 的 段 ， 每 轮 对 一 个 段 应 用 四 个 非 线性 函数 中 的 个， 结果 产生 一 个 128 比 特 的 摘要 。MD5 是 
当前 可 用 的 最 高 效 的 算法 之 一 。 

SHA-1 SHA-1[NIST 2002] 是 一 个 产生 160 比 特 摘要 的 算法 。 它 基于 Rivest 的 MD4 算 法 (与 
MD5 算 法 类 似 ) ， 并 附加 了 - 些 额外 操作 。 运 行 速度 比 MDS 慢 得 多 ， 但 是 160 比 特 的 摘要 可 以 提供 
更 大 的 安全 保障 以 防止 强行 攻击 和 生日 类 型 的 攻击 。SHA 算 法 也 被 包含 在 标准 [NIST 2002] 中 ， 
SHA 算法 能 产生 更 长 的 摘要 (224、256 和 512 比 特 ) 。 当 然 ， 摘 要 越 长 ， 生 成 摘要 的 开销 越 大 ， 需 
要 的 存储 空间 更 大 ， 数 字 签名 和 MAC 通 信 的 开销 也 越 大 。 但 是 ， 根 据 公 布 的 对 SHA-1 改 进 前 的 算 
法 的 攻击 记录 可 以 得 知 ，SHA-1 算 法 是 易 受 攻击 的 [Randall and Szydlo 2004]。 美 国 国家 标准 和 技 
术 研 究 所 宣称 将 在 2010 年 之 前 将 美国 政府 软件 用 有 更 长 摘要 的 SHA 算法 重新 加 密 [NIST 2004]。 

使 用 加 密 算法 生成 摘要 ”可 以 使 用 7.3.1 节 所 述 的 对 称 加 密 算法 来 生成 一 个 安全 摘要 。 在 这 种 
情况 下 ， 应 该 将 密 钥 发 布 出 去 ， 让 任何 希望 验证 数字 签名 的 人 可 以 运用 摘要 算法 进行 有 关 的 验证 。 
加 密 算法 被 用 于 CBC 模 式 ， 其 摘要 是 倒数 第 二 个 CBC 值 和 最 终 加 密 块 的 组 合 结果 。 


7.4.4 ”证书 标准 和 证 书 权 威 机 构 


X.509 是 应 用 最 为 广泛 的 证 书 标准 格式 [CCITT 1988bj。 虽 然 X.509 证 书 格式 是 X.500 标 准 的 一 
部 分 ， 用 于 进行 全 球 性 的 名 字 和 属性 目录 的 构建 [CCITT 1988a] ， 但 是 它 在 加 密 处 理 中 通常 作为 一 
种 独立 证 书 的 格式 定义 。 我 们 将 在 第 9 章 描述 X.500 的 命名 标准 。 
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X.509 证 书 的 结构 和 内 容 如 图 7-12 所 示 ， 它 将 一 个 公 钥 绑 定 到 一 个 称 为 主题 (subject) 的 命名 
实体 上 。 该 绑 定 存在 于 签名 中 ， 这 个 签名 被 另 一 个 称 为 发 布 者 (issuer) 的 实体 发 布 。 证 书 有 一 个 
有 效 期 (period of validity) ， 其 中 包含 起 止 日 期 。 
< 标志 名 > 项 指 一 个 人 、 组 织 或 其 他 有 着 足够 上 下 标志 名 、 签 名 
文 信息 用 以 保证 唯一 性 的 实体 的 名 字 。 在 一 个 完 不 早 于 某 日 期 且 不 晚 于 另 一 个 日 期 
整 的 X.500 的 实现 中 ， 这 种 上 下 文 信息 可 以 从 命 息 版 本 ， 序 列 号 
名 实体 所 在 的 目录 层次 中 抽取 出 来 ， 但 是 如 果 没 
有 全 局 的 X.500 实 现 ， 这 种 关系 只 能 是 一 个 描述 
性 的 字符 串 。 

这 种 格式 被 包含 在 TLS 协 议 中 应 用 于 电子 商务 ， 它 在 实际 的 服务 和 客户 端的 公 钥 认证 中 得 到 广 
证 运用 。 某 些 众所周知 的 公司 和 组 织 已 经 建立 并 担当 了 证 书 权威 机 构 (例如 ，Verisignfwww. 
verisign.com]，CREN[www.cren.netl) ， 其 他 公司 和 个 人 通过 向 这 些 组 织 提交 符合 要 求 的 身份 证 明 
来 获得 X.509 公 钼 证 书 。 于 是 ， 对 任何 X.509 证 书 都 有 一 个 两 阶段 的 验证 过 程 ， 

1) 从 一 个 可 信之 处 获得 发 布 者 (证 书 权威 机 构 ) 的 公 和 钥 证 书 。 

2) 验证 签名 。 

SPKI 方 法 X.509 方 法 基于 标志 名 是 全 局 唯一 的 ， 但 这 被 认为 是 一 个 不 实际 的 目标 ， 它 不 能 很 
好 地 反映 当前 的 法 律 和 商业 实践 [Ellison 1996]， 因 为 个 体 的 身份 不 能 被 看 作 是 唯一 的 ， 而 是 相对 
于 其 他 个 人 和 组 织 时 是 唯一 的 。 这 在 使 用 驾驶 执照 或 银行 证 明 信 认 证 一 个 人 的 名 宇和 地 址 (一 个 
名 字 在 世界 范围 内 不 可 能 唯一 ) 中 是 相当 常见 。 这 就 使 验证 链 加 长 ， 因 为 存在 许多 可 能 的 公 钥 证 
书 的 发 布 者 ， 他 们 的 签名 必须 通过 一 个 验证 链 认 证 ， 最 后 认证 被 传 给 执行 验证 的 主体 知道 的 且 信 
任 的 人 。 如 果 得 到 的 认证 足以 让 人 信服， 而 且 验 证 链 中 的 许多 步骤 可 以 缓存 起 来 ， 以 便 在 未 来 其 
些 场合 中 缩短 处 理 过 程 。 

上 述 讨 论 是 最 近 开发 的 简单 公 钥 基础 设施 (Simple Public-key Infrastructure, SPKI) 的 依据 
(参见 RFC 2693[Ellison et al. 1999]) 。 这 是 一 个 建立 和 管理 公共 证 书 集合 的 方案 ， 它 使 得 用 逻辑 推 
理 来 处 理 的 证 书 链 能 生成 派生 的 证 书 。 例 如 , “Bob 相 信和 Alice 的 公 钥 是 Kus” 并 且 “Carol 在 Alice 
的 密 钥 上 信任 Bob”， 这 就 意味 着 “Carol 相 信 Alice 的 公 钥 是 Ks”。 


7.5 密码 实用 学 


在 7.5.1 节 中 ， 我 们 将 比较 前 面 介绍 的 加 密 算法 和 安全 散 列 算法 的 性 能 。 我 们 把 加 密 算 法 和 安 
全 散 列 函数 放 在 一 起 考虑 是 因为 加 密 算 法 有 时 候 被 用 来 进行 数字 签名 。 

在 7.5.2 节 中 ， 我 们 将 讨论 围绕 密码 技术 的 应 用 一 些 非 技术 问题 。 自 从 功能 强大 的 密码 算法 出 
现在 公共 领域 ， 还 没有 对 发 生 在 此 学 科 上 的 大 量 的 政治 性 讨论 进行 过 公正 的 评判 ， 而 且 对 该 学 科 
的 争论 也 没有 达成 明确 的 结论 。 我 们 的 目的 只 是 让 读者 了 解 一 些 正 在 进行 的 争论 。 

7.5.1 密码 算法 的 性 能 

图 7-13 给 出 了 对 称 加 密 算法 和 本 章 讨论 的 安全 摘要 算法 的 性 能 比较 ， 我 们 给 出 两 个 速度 上 的 
度量 。 在 “PRB 优 化 ”这 一 列 的 数据 是 根据 Preneel 等 [Preneel et al. 1998] 提 供 的 数据 给 出 的 。 
“Crypto++” 这 一 列 的 数据 则 是 最 近 刚 刚 从 密码 方案 [www.cryptopp.com] 的 Crypto++ 开 源 库 的 作者 
处 得 到 的 。 同 时 ， 在 列 标题 中 也 注 明 了 相应 性 能 测试 过 程 中 使 用 的 硬件 速度 。Preneel 的 实现 是 通 
过 手工 优化 的 汇编 程序 ， 而 Crypto++ 的 实现 则 是 通过 一 个 优化 的 编译 器 生成 的 C++ 程 序 。 

密 钥 的 长 度 决定 了 对 其 进行 强制 攻击 所 需 的 计算 开销 ， 加 密 算法 的 真实 强度 很 难 衡量 ， 而 且 


它 依赖 于 算法 能 否 成 功 地 加 密 明 文 。Preneel 等 [1998] 对 主要 的 对 称 算法 的 强度 和 性 能 进行 了 有 益 的 
讨论 。 


标志 名 、 公 铀 








图 7-12 X.509 证 书 格 式 
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密 钥 长 度 / 散 列 PRB 优 化 90MHz Crypto++ 2.1GHz 
长 度 〈 比 特 ) 。 奔腾 1 ( 兆 字 节 / 秒 ) ”奔腾 IV (Mbps) 
TEA 128 一 23.801 
DES 56 2.113 21.340 
Triple-DES 112 0.775 9.848 
IDEA 128 1.219 18.963 
AES 128 一 61.010 
AES 192 一 53.145 
AES 256 一 48.229 
MD5 128 17.025 216.674 
SHA-l 160 一 67.977 


图 7-13 加 密 和 安全 搞 要 算法 的 性 能 


那么 ， 上 面 的 性 能 数字 对 于 现实 的 密码 应 用 程序 (例如 ， 为 保证 安全 的 网 络 交互 〈7.6.3 节 讨 
论 的 https 协 议 ) 使 用 的 TLS 机 制 中 的 应 用 ) 有 什么 意见 呢 ? 网 页 的 大 小 很 少 会 超过 100KB ， 所 以 任 
何 -- 个 网 页 的 内 容 都 可 以 采用 任何 一 种 对 称 算法 由 一 个 如 今 看 起 来 很 慢 的 单 处 理 器 在 几 毫 秒 之 内 
完成 加 密 。RSA 算 法 主要 用 于 数字 签名 ， 而 且 RSA 算 法 也 仅 需 几 毫 秒 的 执行 时 间 。 所 以 ， 算 法 性 
能 对 https 程 序 的 运行 速度 产生 的 影响 是 很 小 的 。 

不 对 称 的 算法 (如 RSA) 很 少 用 于 数据 加 密 ， 但 是 它们 的 性 能 对 于 签名 服务 还 是 很 有 吸引 力 
的 。Crypto++ 开 源 库 的 网 页 显示 ， 利 用 图 7.13 中 最 后 一 列 提 到 的 硬件 资源 ， 使 用 带 有 1024 比 特 密 外 
的 RSA 算 法 对 一 段 待 加密 的 信息 (可 以 认为 是 由 160 比 特 的 SHA-1 算 法 生成 的 ) 进行 签名 ， 耗 费时 
间 为 4.75ms ， 而 验证 这 个 签名 则 仅 消耗 了 0.18ms。 


7.5.2 密码 学 的 应 用 和 政治 障碍 


上 述 算法 均 在 20 世 纪 80 年 代 到 90 年 代 之 间 出 现 ， 在 这 期 间 计算 机 网 络 开 始 用 于 商业 用 途 ， 而 
同时 计算 机 网 络 缺 乏 安 全 性 也 已 成 为 制约 其 商业 化 的 一 大 问题 。 正 如 我 们 在 本 章 开 始 所 述 ， 美 国 
政府 非常 抵制 密码 软件 的 出 现 。 有 两 个 原因 ， 其 一 ， 美 国 国家 安全 局 (NSA) 有 这 样 一 个 政策 ， 
它 将 其 他 国家 可 用 的 密码 长 度 限制 在 一 个 较 低 的 水 平 ， 使 得 国家 安全 局 可 以 基于 军事 情报 的 目的 
破解 任何 秘密 通信 ， 其 二 ， 美 国联 邦 调查 局 (FBI) 以 执法 为 目的 ， 要 确保 它 的 机 构 拥 有 访问 所 有 
在 美的 私有 组 织 和 个 人 所 使 用 的 密 钥 的 特权 。 

在 美国 ， 密 码 软件 被 列 为 军需 品 ， 有 严格 的 出 口 限制 。 其 他 国家 ， 特 别 是 美国 的 盟国 ， 也 是 
采取 类 似 的 做 法 ， 在 某 些 情况 下 甚至 有 更 为 严格 的 限制 。 而 政治 家 以 及 一 般 公 众 就 什么 是 密码 软 
件 和 它 潜在 的 非 军事 化 应 用 的 一 无 所 知 ， 这 使 得 问题 更 加 复杂 化 。 来 自 美国 软件 公司 的 抗议 认为 
这 种 限制 抑制 了 如 浏览 器 这 样 的 软件 的 出 口 ， 因 为 该 出 只 限制 最 终 确 定 为 只 允许 使 用 不 超过 40 比 
特 密 钥 〈 不 太 强 的 密码 ) 的 软件 代码 出 口 。 

出 日 限制 可 能 已 经 阻碍 了 电子 商务 的 发 展 ， 但 是 它们 在 防范 密码 技术 的 扩散 和 保持 密码 软件 
不 被 其 他 国家 所 控制 方面 并 不 是 特别 有 效 ， 因 为 在 美国 国内 外 有 许多 程序 员 热 囊 于 实现 和 分 发 密 
码 代 码 。 当 前 的 情形 是 ， 实 现 了 绝 大 多 数 密码 算法 的 软件 已 在 全 世界 流行 多 年 了 ， 包 括 出 版 物 
{Schneier 1996] 和 在 线 资料 、 商 业 和 免费 软件 [www.rsasecurity.com， cryptography.org， 
Privacy.nb.ca， www.openssl.org] 

一 个 例子 是 称 为 PGP (Pretty Good Privacy) 的 程序 [Garfinkel 1994， Zimmermann 1995]， 它 
最 早 是 由 Philip Zimmermann 开 发 的 ， 并 由 他 和 其 他 人 分 发 出 去 。 这 种 方式 使 得 密码 方法 的 使 用 不 
被 美国 政府 所 控制 。PGP 已 经 被 开发 出 来 并 分 发 出 去 ， 目 的 是 使 所 有 计算 机 用 户 都 可 以 在 他 们 的 通 
信 中 使 用 公 钼 密码 算法 ， 从 而 享受 由 此 带 来 的 私密 性 和 完整 性 。PGP 生 成 并 管理 公 钥 和 私 钥 ， 它 使 
用 RSA 公 钥 加 密 算法 进行 认证 并 把 密 钥 传 送 给 通信 伙伴 ， 并 使 用 IDEA 或 者 3DES 密 钥 加 密 算法 来 加 
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Bo4] 刻 邮 件 消 息 和 其 他 文档 (PGP 刚 开发 时 ，DES 算 法 的 使 用 被 美国 政府 控制 )。PGP 有 免费 版 本 和 商 


业 版 本 ， 它 经 由 不 同 的 分 发 站 点 发 布 给 北美 用 户 [www.pgp.com] 和 世界 上 其 他 地 区 的 用 户 
[International PGP]。 

美国 政府 最 终 认识 到 NSA 的 观点 是 毫 无 作用 的 ， 并 认识 到 这 带 给 美国 计算 机 业 的 危害 (无 法 
在 全 球 范围 内 出 售 网 络 浏 览 器 、 分 布 式 操作 系统 和 其 他 许多 产品 的 安全 版 本 )}。2000 年 1 月 ， 美 国 
政府 引入 了 一 个 新 的 政策 法 规 [www.bxa.doc.gov]， 目 的 是 允许 美国 软件 供 货 商 出 口 包含 有 很 强加 
密 功 能 的 软件 产品 。2004 年 ， 新 的 管理 措施 允许 出 口 包含 有 高 达 64 比 特 加 密 密 钥 ， 以 及 最 高 达 
1024 比 特 的 用 于 签名 和 交换 窗 钥 的 公 钥 的 软件 产品 。 法 规 要 求 政府 “审查 ”出 口 的 软件 ， 允 许 软 
件 中 采用 更 长 的 密 钥 。 当 然 ， 美 国 并 不 持 有 密码 软件 生产 或 出 版 的 专利 ， 对 所 有 知名 的 算法 都 已 
有 了 开源 的 实现 [www.cryptopp.com]。 这 些 法 规 仅 会 限制 某 些 美国 生产 的 商业 软件 的 市 场 销售 。 

一 些 人 提出 通过 立法 来 坚持 软件 必须 包含 只 对 政府 法 律 执行 和 安全 机 构 有 效 的 入 口 或 者 后 门 ， 
以 便 由 国家 来 控制 密码 的 使 用 。 这 些 建议 源 自 这 样 的 设想 : 为 了 防止 秘密 的 通信 通道 可 以 被 各 种 
各 样 的 犯罪 分 子 使 用 。 在 数字 密码 出 现 之 前 ， 美 国政 府 一 直 依靠 截取 来 分 析 公 众 的 通信 信息 ， 而 
数字 密码 的 出 现 从 根本 上 改变 了 这 种 状况 。 但 是 这 些 立法 提案 妨碍 了 密码 学 的 使 用 ， 同 时 也 遭 到 
关心 自身 隐私 权 的 公民 和 自由 团体 的 强烈 反对 。 迄 今 为 止 ， 这 些 立 法 提案 没有 一 个 被 采纳 ， 但 是 
政治 上 的 努力 依旧 会 持续 下 去 ， 最 终 必 将 引入 一 个 合法 的 使 用 密码 的 框架 。 


7.6 案例 研究 Needham-Schroeder、Kerberos、TLS 和 802.11 WiFi 


最 初 由 Needham 和 Schroeder[1978] 发 表 的 认证 协议 是 许多 安全 技术 的 核心 ， 我 们 将 在 7.6.1 节 
详细 说 明 。 最 为 重要 的 密 钥 认 证 协议 的 应 用 是 Kerberos 系 统 [Neuman and Ts'o 1994 ]， 这 是 我 们 第 
二 个 案例 的 主题 (参见 7.6.2 节 )。Kerberos 用 于 为 网 络 上 客户 和 服务 器 间 提 供认 证 服务 ， 从 而 形成 
一 个 管理 域 (内 部 因特网 )。 

我 们 的 第 三 个 案例 (参见 7.6.3 节 ) 是 关于 传输 层 安全 (TLS) 协议 的 ， 这 是 专门 用 于 满足 电子 
交易 安全 的 需要 的 ， 该 协议 目前 被 大 多 数 Web 浏 览 器 和 服务 器 支持 ， 并 被 大 多 数 Web 商 务 交 易 采 用 。 

最 后 一 个 案例 (参见 7.6.4 节 ) 将 阐述 工程 安全 系统 的 困难 。1999 年 发 布 的 IEEE 802.11 WiFi 标 
准 就 带 有 一 个 有 关 安 全 的 规约 。 但 是 ， 随 后 的 分 析 和 攻击 结果 表明 ， 这 个 规约 有 严重 的 不 足 ， 我 
们 将 揭示 这 种 不 足 ， 并 讨论 其 与 本 章 提 到 密码 学 原理 的 关系 。 

7.6.1 Needham-Schroeder 认 证 协议 

这 里 描述 的 协议 是 为 了 满足 在 网 络 土 安全 地 管理 密 钥 (和 口令 ) 的 需要 而 开发 的 。 在 这 项 工 
作 [Needham and Schroeder 1978] 发 布 的 时 候 ， 网 络 文件 服务 刚刚 出 现 ， 在 局 域 网 中 人 迫切 需要 更 好 
的 安全 管理 方法 。 

在 管理 型 网 络 中 ， 需 要 能 由 以 质询 ( 见 7.2.2 节 ) 的 形式 发 布 会 话 密 钥 的 密 钥 服务 来 满足 ， 这 
就 是 Needham 和 Schroeder 开发 的 密 钥 协 议 的 日 的 。 在 同一 篇 论文 中 ， Needham 和 Schroeder 也 陈述 
了 一 种 基于 使 用 公 钼 认证 和 密 钥 分 发 的 协议 ， 该 协议 不 依赖 已 有 的 密 钥 服务 器 ， 因 此 更 适合 于 在 
因特网 这 样 有 着 许多 独立 管理 域 的 网 络 中 使 用 。 在 这 里 我 们 不 准备 描述 公 钥 版 本 ， 但 是 将 在 7.6.3 
节 描 述 的 TLS 协 议 是 它 的 一 个 变种 。 

Needham 和 Schroeder 提出 了 一 个 认证 和 密 钥 分 发 的 解决 方案 ， 它 基于 一 个 给 客户 提供 密 钥 的 
认证 服务 器 。 认 证 服务 器 的 工作 是 为 一 对 进程 提供 一 个 安全 地 获得 共享 密 钥 的 方式 。 为 了 做 到 这 
一 点 ， 它 必须 使 用 加 密 消 息 与 客户 通信 。 

Needham-Schroeder 密 钥 ”在 该 模型 中 ， 一 个 进程 代表 一 个 主体 4，4 和 希望 启动 与 代表 主体 如 
的 其 他 进程 的 安全 通信 ， 为 达到 这 个 目的 4 进程 可 以 获得 一 个 密 钥 。 这 个 协议 是 对 任意 两 个 进程 4 
和 8B 来 说 的 ， 但 是 在 客户 一 服务 器 系统 中 ，A 可 能 是 一 个 对 某 个 服务 器 8 发 起 一 系列 请 求 的 客户 。 
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提供 给 4 的 密 钥 有 两 种 形式 ， 一 种 是 A 用 来 加 密 传递 给 8 的 消息 的 ， 另 一 种 可 以 安全 地 传递 给 B (后 
者 在 一 个 B 可 知 而 4 不 知道 的 密 钥 中 被 加 密 ， 因 此 8 可 以 对 其 进行 解密 并 且 该 密 钥 在 传输 过 程 中 未 
被 自 改 )。 

认证 服务 器 5 维护 一 张 表 ， 为 系统 所 知 的 每 个 主体 保存 一 个 名 字 和 一 个 密 钥 。 密 钥 只 用 来 认证 
连接 到 认证 服务 器 的 客户 进程 ， 并 在 客户 进程 和 认证 服务 器 之 间 安 全 地 进行 消息 传输 。 该 密 钥 从 
不 泄露 给 第 三 方 ， 在 密 钥 生成 后 在 网 络 上 最 多 传送 一 次 (在 理想 情况 下 ， 一 个 密 钥 应 该 总 是 通过 
其 他 途径 传送 ， 例 如 以 书面 形式 或 口头 形式 ， 以 避免 密 钥 暴露 在 网 络 上 ) 。 一 个 密 钥 与 在 集中 式 系 
统 中 用 来 认证 用 户 的 口令 等 价 。 对 于 主体 是 人 的 情况 ， 认 证 服务 持 有 的 名 字 是 他 们 的 “用 户 名 ”， 
密 钥 是 他 们 的 口令 ， 它 们 都 是 由 用 户 在 向 代表 他 们 的 客户 进程 发 出 请 求 时 提供 的 。 

这 个 协议 基于 认证 服务 器 产生 和 传送 的 票证 。 票 证 是 一 个 加 密 了 的 消息 ， 它 包含 用 于 在 4 和 B 
之 间 通 信 的 密 钥 。 我 们 将 Needham 和 Schroeder 的 密 钥 协 议 中 的 消息 制 成 表格 ， 如 图 7-14 所 示 。 其 
中 5 是 认证 服务 器 。 


消 息 头 





消 号 注释 











1 4 一 3 4 B, WN, 4 请 求 5 提供 一 个 用 于 与 8 通信 的 密 钥 
2.S—A:  {N,, B, Kag 5 返回 用 4 的 密 钥 加 密 的 消息 ， 消 息 含有 新 生成 的 


{Kis， 4A} Ks} K， 密 钥 Ke 和 一 个 用 8 的 密 钥 加 密 的 “票证 。 当 前 时 
间 Ns 说 明 该 消息 是 响应 前 一 个 消息 的 。 由 于 只 有 5 
知道 4 的 密 钥 ， 所 以 4 相信 和 是 5 发 送 了 消息 


3. A—B: {Kag, A} Ks 4 将 “票证 ”发 送 给 有 B 

4.B—A: {Ns} Kag 8 解密 票证 ， 并 使 用 新 的 密 钥 Ks 来 加 密 另 …- 个 当 
前 时 间 As 

5.A—5B: {Ns—1} Kag 4 通过 返回 一 致 的 当前 时 间 Ns 的 转换 给 B8， 证 明 它 








是 前 个 消息 的 发 送 者 








图 7-14 Needham-Schroeder 密 钥 认 证 协议 


Na 和 Ne 是 当前 时 间 。 当 前 时 间 是 一 个 整数 值 ， 它 被 加 入 到 消息 里 以 说 明 该 消息 是 新 近 产 生 的 。 
当前 时 间 只 被 使 用 一 次 ， 并 在 需要 的 时 候 生成 。 例 如 ， 当 前 时 间 可 以 是 一 系列 顺序 的 整数 值 或 者 
可 以 通过 读 取 发 送 机 器 的 时 钟 值 生 成 。 

如 果 成 功 完 成 协议 ， 那 么 4 和 8 都 可 以 确定 任何 从 对 方 接 收 到 的 用 Ks 加 密 的 消息 确实 是 来 自 对 
方 的 ， 任 何 发 送 给 对 方 的 用 Kg 加密 的 消息 只 能 被 对 方 或 9 (5 被 认为 是 可 信任 的 ) 解密 ， 这 是 因为 
只 有 传送 带 有 Ks 的 消息 才能 用 A 或 8 的 密 钥 加 密 。 

该 协议 存在 一 个 不 足 之 处 ， 因 为 B 没 有 理由 相信 消息 3 是 新 近 产 生 的 。 入 侵 者 如 果 获 得 密 钥 Ks 
并 且 复 制 了 票证 和 认证 者 消息 {K4s，4} K。( 这 些 信息 可 能 由 于 天 忽 或 在 4 的 授权 下 客户 程序 运行 
错误 而 被 置 于 一 个 暴露 的 地 方 )， 他 就 可 以 假扮 4， 并 使 用 上 述 内 容 发 起 和 B 的 信息 交换 。 这 种 攻击 
会 损害 密 钥 Ks 的 旧 值 ， 在 现今 的 术语 中 ，Needham 和 Schroeder 的 威胁 列表 中 没有 包括 这 种 可 能 性 ， 
但 多 数 观点 认为 应 该 包括 这 种 可 能 性 。 通 过 给 消息 3 增加 当前 时 间或 时 间 发 可 以 弥补 这 个 不 足 ， 所 
以 消息 变 成 : {Kae，4， Kspws，B 解 密 这 个 消息 并 检查 ! 是 否 是 新 近 的 ， 这 就 是 Kerberos 采 取 的 解 
决 方 案 。 

7.6.2 Kerberos 


Kerberos 是 20 世 纪 80 年 代 在 MIT 大 学 [Steiner et al. 1988] 开 发 出 来 的 ， 目 的 是 为 MIT 校 园 网 和 其 
他 内 部 因特网 提供 一 系列 认证 和 安全 设施 。 根 据 用 户 和 组 织 的 经 验 和 反馈 ，Kerberos 协 议 经 历 了 多 
次 修订 和 改进 。 下 面 要 描述 的 是 版 本 5[Neuman and Ts'o 1994]， 它 遵循 因特网 的 标准 轨迹 (参见 
RFC1510[Kohl and Neuman 1993])， 目 前 被 许多 公司 和 大 学 使 用 。Kerberos 的 实现 源 代 码 可 以 从 
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ww 
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MIT[Web.mit.edu 了 获得 。OSF 的 分 布 式 计算 环境 (DCE) [OSF 1997] 和 微软 [www.Microsoft.com 
I 的 Windows 2000 操 作 系 统 都 包含 Kerberos 的 实现 ， 并 且 Windows 2000 操 作 系 统 把 它 作 为 默认 的 
认证 服务 。 扩 展 Kerberos 的 提议 认为 可 以 利用 公 角 证书 来 进行 主体 的 初始 认证 (参见 图 7-15 步 骤 A) 
[Neuman et al. 1999]。 






Kerberos 密 钥 分 发 中 心 





图 7-15 Kerberos 系 统 体系 结构 


图 7-15 显 示 了 Kerberos 的 进程 体系 结构 ，Kerberos 处 理 三 类 安全 对 象 : 

。 票 证 : Kerberos 票 证 授予 服务 给 每 个 客户 发 一 张 标记 ,该 标记 用 于 发 送 给 某 一 个 服务 器 ,证 
实 Kerberos 最 近 已 经 认证 了 发 送 者 。 票 证 包括 过 期 时 间 和 新 生成 的 会 话 密 钥 以 供 客户 和 服务 
器 使 用 。 

。 认 证 : 由 客户 构造 的 一 个 标志 ， 并 发 送 给 服务 器 ， 用 于 证 明 用 户 身份 以 及 任何 与 服务 器 的 通 
信 的 currency。 一 个 认证 器 仅 可 以 使 用 一 次 ， 它 包含 客户 的 名 字 和 时 间 惟 ， 并 用 恰当 的 会 话 
密 钥 加 密 。 

。 会 话 密 钥 : 会 话 密 钥 是 由 Kerberos 随 机 产生 的 ， 在 与 某 个 服务 器 通信 时 发 给 客户 使 用 。 对 于 
与 服务 器 进行 的 所 有 通信 ， 并 非 必须 要 加 密 ， 会 话 密 钥 就 是 用 来 对 与 要 求 加密 的 与 服务 器 之 
间 的 通信 进行 加 密 ， 也 用 来 对 所 有 认证 器 加 密 (参见 上 面 的 描述 ) 。 

客户 进程 对 它们 所 使 用 的 每 个 服务 器 都 必须 提供 票证 和 会 话 密 钥 。 为 客户 一 服务 器 的 每 次 交互 
都 提供 新 票证 和 密 钥 是 不 切实 际 的， 因此 大 多 数 票证 允许 客户 在 几 小 时 内 使 用 以 便 与 某 一 个 服务 
器 进行 交互 ， 直 至 到 期 为 止 。 

一 个 Kerberos 服 务 器 也 称 为 一 个 密 钥 分 发 中 心 (KDC) 。 每 个 KDC 提 供认 证 服务 (AS) 和 票证 
授予 服务 (TGS ) 。 登 录 时 ，AS 用 网 络 安全 的 口令 认证 用 户 ， 然 后 给 代表 用 户 的 客户 进程 提供 一 张 
能 授予 景 证 的 票证 (ticket granting ticket) 和 用 来 与 TGS 通信 的 会 话 密 钥 。 因 此 ， 一 个 客户 进程 及 
其 子 进程 可 以 用 授予 票证 的 票证 从 TGS 中 获取 用 于 指定 服务 的 票证 和 会 话 密 钥 。 

Needham-Schroeder 协 议 与 Kerberos 协 议 很 接近 ，Kerberos 用 时 间 值 (表示 日 期 和 时 间 的 整数 ) 
表示 当前 时 间 。 这 有 两 个 目的 : 

* 防止 从 网 络 中 截取 的 旧 消 息 的 重播 ， 或 重用 在 授权 用 户 已 退出 登录 的 机 器 内 存 中 发 现 的 旧 票 

证 (在 Needham-Schroeder 协 议 中 用 当前 时 间 达 到 此 目的 )。 

。 应 用 票证 生命 期 ， 使 系统 在 用 户 不 再 是 系统 的 授权 用 户 时 收回 他 们 的 权利 。 

下 面 我 们 详细 描述 Kerberos 协 议 ， 所 用 符号 如 下 所 示 。 首 先 ， 我 们 描述 客户 为 访问 TGS 而 获得 
票证 和 会 话 密 钥 的 协议 。 
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符号 : 

A ”Kerberos 认 证 服务 的 名 字 n ”当前 时 间 

T terberos 票 证 授予 服务 的 名 字 1 时间 惟 

C 客户 的 名 字 t 票证 有 效 期 的 开始 时 间 


rt 票证 有 效 期 的 截止 时 间 
Kerberos 票 证 有 固定 的 有 效 期 : 从 4 开始 ， 到 its 结束。 客户 C 访 问 服务 器 S$ 的 票证 的 形式 如 下 : 
{C，S， ti，t，Kcs}xs， 记 做 {ticket(C，5S)} ks， 客 户 名 包含 在 票证 中 ， 以 免 被 冒充 者 使 用 (将 在 后 
文 介绍 ) 。 图 7-15 中 的 步 又 和 消息 号 对 应 于 描述 栏 4 中 的 内 容 ， 注 意 消 息 1 没有 加 密 ， 也 不 含 C 的 口 
令 。 它 包含 当前 时 间 值 ， 用 来 检查 应 答 的 有 效 性 。 


A. 每 次 登录 时 ， 将 获得 Kerberos 会 话 密 钥 和 TGS 票证 ，， 


1.C 一 A: 请 求 TGS G3 Tr 客户 C 请 求 Kerberos 认 证 服务 器 4 提供 与 要 证 授 
票证 予 服务 通信 的 票证 
2. A 一 C: TGS 会 话 。 {Ker, n}xe, {ticket (C, T) }xr, 4 返回 一 条 消息 ， 其 中 包含 用 4 的 密 钥 加 密 的 票 
密 钥 和 票证 包含 C, 了 ,tyy ,Kcr 证 和 C 要 用 的 会 话 密 钥 (与 7 一 起 使 用 )。 当 前 时 间 
n 是 用 Kc 加 密 的 ， 它 表明 消息 来 自 消息 1 的 接收 者 ， 
他 必须 知道 Kc 


消息 2 有 时 称 为 “质询 "， 因 为 它 发 送 给 请 求 者 的 信息 是 只 有 知道 C 的 密 钥 K. 后 才 有 用 的 信息 。 
冒充 者 企图 靠 发 消息 1 来 模仿 C， 但 由 于 无 法 对 消息 2 解密 ， 他 没 法 继续 下 去 。 对 于 用 户主 体 ，K. 是 
用 用 户 的 口令 拼凑 出 来 的 。 客 户 进 程 会 提示 用 户 键入 口令 ， 并 试图 用 该 口令 对 消息 2 解密 。 如 果 用 
户 给 出 正确 的 口令 ， 客 户 进程 就 能 获得 会 话 密 钥 Kcr 和 用 于 票证 授予 服务 的 有 效 票 证 ， 否 则 ， 它 获 
得 无 意义 的 信息 。 服 务 器 有 它们 自己 的 密 钥 ， 只 有 有 关 的 服务 器 进程 和 认证 服务 器 知道 这 些 密 钥 。 

从 认证 服务 获得 有 效 票证 后 ， 客 户 C 可 以 用 它 与 票证 授予 服务 通信 ， 以 多 次 获得 其 他 服务 器 
票证 ， 直 至 票证 到 期 为 止 。 因 此 ， 为 了 获得 某 一 服务 器 S 的 票证 ，C 构 造 一 个 用 Kj 加 密 的 认证 器 ， 
形式 如 下 : {C， 人 xcr， 记 做 {auth (C )}xcr， 然 后 向 7 发 请 求 : 


B, 每 次 客户 ~ 服务 器 会 话 时 ， 将 为 服务 器 5 获得 票证 





3. C 一 T: 请 求 服务 。 {auth (C) }xe, C 请 求 票证 授予 服务 器 7 提供 与 男 一 服务 器 5 通信 
S 的 票证 {ticket (Cs TY yarn. S$; ni 的 票证 
4. T 一 C; 服务 票证 《Kes, n}xer,， {ticket (C，S) }xs 7 检查 票证 。 若 票证 有 效 ，7 就 生成 新 的 随机 会 


话 密 钥 Kc*， 并 用 3$ 的 密 钥 Ks 加 密 的 $ 的 票证 一 起 返 
回 





然后 C 开 始 向 服务 器 8 发 出 请 求 消息 : 


C. 发 布 一 个 带 有 票证 的 服务 器 请 求 





5. C 一 S: {auth (C) } xcs， C 向 3 发 票证 ， 附 上 为 C 新 生成 的 认证 器 及 请 求 。 
服务 请 求 {ticket (C, S$) } ks, request, n 若 要 求 数据 保密 ， 则 用 Kcs 加 密 该 请 求 





为 了 让 客户 确信 服务 器 的 真实 性 ，5 应 向 C 返 回 一 个 当前 时 间 n (为 减少 需要 的 消息 数 ， 可 以 把 
它 包 含 在 含有 服务 器 对 请 求 的 应 答 的 消息 中 ): 


”DD. 认证 服务 器 (可 选 ) 






6. S 一 C: 服 务 器 认证 ta x (可 选 ): 5 向 C 发 送 当 前 时 间 n，n 用 Kes 加密 





198 荐 7 章 


Kerberos 的 应 用 ”Kerberos 是 MIT 为 在 Athena 项 目 中 使 用 而 开发 的 ， 是 面向 大 学 教育 的 校园 网 计 
算 设施 的 ， 其 中 有 许多 工作 站 和 服务 器 ， 为 5000 多 比特 用 户 提供 服务 。 运 行 环境 中 客户 、 网 络 和 提供 
网 络 服务 的 机 器 的 安全 性 都 不 可 信 
而 对 服务 器 (除了 Kerberos 服 务 器 外 ) 提供 了 多 余 的 安全 保障 用 以 防止 利用 软件 配置 进行 物理 干扰 。 

Kerberos 在 Athena 系 统 中 提供 了 所 有 的 安全 保护 ， 它 用 于 认证 用 户 和 其 他 主体 。 大 多 数 运行 在 
网 络 上 的 服务 器 都 进行 了 扩展 ， 从 而 在 每 个 客户 -服务 器 交互 开始 时 要 求 客户 提供 票证 ， 包 括 文件 
存储 (NFS 和 Andrew 文 件 系 统 )、 电 子 邮 件 、 远 程 登录 和 打印 。 用 户 的 口令 只 有 用 户 自 己 和 
Kerberos 认 证 服务 知道 。 服 务 拥有 的 密 钥 只 为 Kerberos 和 提供 服务 的 服务 器 所 知 。 

我 们 将 描述 用 Kerberos 来 进行 用 户 登录 认证 的 方式 。 如 何 使 用 Kerberos 来 保护 NFS 文 件 服务 将 
在 第 8 章 描述 。 

用 Kerberos 登 录 当 用 户 登录 到 工作 站 时 ， 登 录 程序 将 用 户 名 发 送 给 Kerberos 认 证 服务 。 如 
果 用 户 名 通过 认证 服务 的 认证 ， 则 返回 用 该 用 户 的 口令 加 密 的 会 话 密 钥 、 当 前 时 间 和 用 于 TGS 的 
票证 。 登 录 程 序 在 口令 提示 下 尝试 用 用 户 键入 的 口令 解密 会 话 密 钥 和 当前 时 间 。 如 果 口 令 正确 ， 
登录 程序 即 可 获得 会 话 密 钥 和 当前 时 间 。 它 检查 当前 时 间 ， 并 保存 好 会 话 密 钥 和 票证 以 备 随 后 与 
TGS 通信 时 使 用 。 这 时 ， 登 录 程 序 可 以 从 内 存 中 删除 用 户口 令 ， 因 为 票证 现在 可 以 用 于 认证 该 用 
户 。 然 后 ， 这 人 台 工 作 站 上 的 用 户 的 登录 会 话 开始 。 注 意 ， 用 户 的 口令 从 来 不 暴露 在 可 能 被 监听 的 
网 络 上 一 一 它 只 保存 在 工作 站 上 ， 一 旦 登录 立刻 从 内 存 中 删除 。 

通过 Kerberos 访 问 服务 器 ”运行 在 工作 站 上 的 程序 一 旦 需要 访问 一 个 新 的 服务 ， 它 就 向 票证 
授予 服务 请 求 该 服务 的 票证 。 例 如 ， 当 一 个 UNIX 用 户 希 望 登录 到 一 个 远程 计算 机 时 ， 用 户 的 工作 
站 上 的 rlogin 命 令 程 序 从 Kerberos 票 证 授予 服务 处 获得 票证 用 来 访问 rlogind 网 络 服务 。 在 用 户 希 望 
登录 的 计算 机 上 ，rlogin 命 令 程序 响应 远程 机 器 的 riogind 进 程 的 要 求 ， 发 送 票 证 和 一 个 新 的 认证 器 。 
rlogind 程 序 使 用 riogin 服 务 的 密 钥 解 密 票 证 ， 并 检查 票证 的 有 效 性 ( 即 票 证 是 否 过 期 )。 服 务 器 必 
须 小 心地 把 它们 的 密 钥 存储 到 入 侵 者 难以 访问 的 地 方 。 

然后 ，rlogind 程 序 使 用 包含 在 票证 中 的 会 话 密 钥 解 密 认 证 器 并 检查 认证 器 是 否 为 新 近 产 生 的 
(认证 器 只 能 使 用 一 次 )。 一 旦 rlogind 程 序 确信 票证 和 认证 器 都 是 有 效 的 ， 它 就 不 再 需要 检查 用 户 
的 名 字 和 口令 ， 因 为 rlogind 程 序 已 经 知道 用 户 的 身份 ， 并 建立 一 个 远程 用 户 的 登录 会 话 。 

Kerberos 实 现 Kerberos 可 以 作为 一 个 在 安全 机 器 上 运行 的 服务 器 来 实现 。 可 以 提供 一 些 库 
供 客户 应 用 程序 和 服务 程序 使 用 。 也 可 以 采用 DES 加 密 算法 ， 不 过 这 是 作为 独立 模块 实现 的 ， 可 
以 很 容易 地 被 赫 换 掉 。 

Kerberos 服 务 是 可 扩展 的 一 一 它 将 世界 分 成 不 同 的 认证 区 域 ， 称 为 域 ， 每 个 域 有 自己 的 
Kerberos 服 务 器 。 大 多 数 主体 仅 在 一 个 域 中 登记 ， 但 Kerberos 的 票证 授予 服务 器 (TGS) 在 所 有 域 
中 登记 。 通 过 本 地 TGS， 主 体 可 以 在 其 他 域 中 的 服务 器 上 认证 自己 。 

在 一 个 域 中 可 以 有 多 个 认证 服务 器 ， 它 们 都 有 同一 个 认证 数据 库 的 备份 。 认 证 数据 库 的 复制 
采用 一 种 简单 的 主 从 技术 。 由 Kerberos 数 据 库 管理 服务 (KDBM) 负责 更 新 主 拷贝 ， KDBM 只 在 主 
机 上 运行 。KDBM 处 理 用 户 改变 口令 的 请 求 ， 以 及 系统 管理 员 增删 主体 和 改变 口令 的 请 求 。 

为 了 使 这 种 方案 对 用 户 透明 ，TGS 的 生命 期 应 该 至 少 与 可 能 最 长 的 登录 会 话 一 样 长 ， 因 为 使 
用 过 期 的 票证 会 导致 服务 请 求 被 拒绝 ， 唯 一 的 补救 方法 就 是 让 用 户 重新 认证 登录 会 话 ， 然 后 为 所 
有 使 用 中 的 服务 请 求 新 的 服务 器 票证 。 在 实际 应 用 中 ， 域 的 票证 生命 期 一 般 为 12 小 时 。 

对 Kerberos 的 评价 ”上 面 描述 的 Kerberos 版 本 5 针对 早期 版 本 的 一 些 批评 做 了 改进 [Bellovin 
and Merritt1990，Burrows et al. 1990]。 对 Kerberos 版 本 4 最 主要 的 批评 是 认证 器 中 的 当前 时 间 是 用 
时 间 惟 来 实现 的 ， 且 防止 认证 器 重播 至 少 需 要 客户 和 服务 器 时 钟 松 散 同步 。 如 果 使 用 同步 协议 使 
客户 和 服务 器 时 钟 松散 同步 ， 那 么 同步 协议 本 身 也 必须 安全 ， 并 且 能 防范 安全 攻击 。 有 关 时 钟 同 
步 协议 的 内 容 请 参考 第 11 章 。 

Kerbeross 的 协议 定义 允许 认证 器 中 的 当前 时 间 可 以 用 时 间 惟 或 者 序号 实现 ， 无 论 用 哪 种 方法 ， 
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都 要 求 它们 是 唯一 的 ， 并 且 服 务 器 应 该 保留 最 近 收 到 的 每 个 客户 的 当前 时 间 ， 以 便 检查 它们 有 没 
有 重播 。 这 种 要 求实 现 起 来 很 不 方便 ， 并 且 在 服务 器 出 现 故障 时 难以 得 到 保证 。Kehne 等 [1992] 已 
经 公布 了 一 个 不 依赖 同步 时 钟 的 Kerberos 协 议 的 改进 建议 。 
Kerberos 的 安全 性 依赖 于 有 限 的 会 话 生命 期 一 -TGS 票证 的 有 效 期 通常 只 有 几 个 小 时 。 这 个 有 
效 期 必须 选 得 足够 长 ， 以 避免 服务 中 断 造 成 的 不 便 ， 同 时 又 必须 足够 短 ， 以 确保 撤销 登记 的 用 户 
或 降级 的 用 户 不 会 继续 长 期 使 用 资源 。 这 可 能 会 给 某 些 商业 应 用 带 来 困难 ， 因 为 要 求 用 户 在 交互 
”过 程 中 的 任 一 点 提供 新 的 认证 细节 可 能 会 妨碍 实际 应 用 。 312 


7.6.3 使 用 安全 套 接 字 确保 电子 交易 安全 

安全 套 接 字 层 (SSL) 协议 最 初 是 由 Netscape 公 司 [Netscape 1996] 开 发 的 ， 它 提出 了 一 种 标准 
用 于 满足 上 述 需求 。SSL 的 扩展 版 本 传输 层 安全 (TLS) 协议 已 经 被 采纳 为 因特网 标准 ， 具 体 描述 
参见 RFC 2246 [Dierk and Allen 1999]。 大 多 数 浏览 器 都 支持 TLS 协 议 ， 它 广泛 应 用 于 因特网 电子 
商务 。 它 的 主要 特性 如 下 : 

协商 加 密 和 认证 算法 ”在 一 个 开放 的 网 络 中 ， 我 们 不 应 该 认为 所 有 的 人 都 使 用 相同 的 客户 软 
件 ， 也 不 能 认为 所 有 的 客户 和 服务 器 软件 都 包含 特定 的 加 密 算法 。 实 际 上 ， 一 些 国家 的 法 律 试 图 
限制 只 能 在 这 些 国家 使 用 某 些 加 密 算法 。TLS 可 以 在 连接 的 两 端 进行 初始 化 握手 通信 时 ， 在 进程 间 
协商 加 密 和 认证 的 算法 。 因此 可 能 出 现 通信 的 双方 因为 没有 足够 的 公共 算法 而 导致 连接 尝试 失败 。 

自 举 安全 通信 ”为 了 满足 安全 通信 的 要 求 而 不 需要 事先 协商 或 第 三 方 的 帮助 ， 可 以 用 与 前 面 
提 过 的 混合 方案 类 似 的 协议 建立 安全 通道 。 使 用 未 加 密 的 通信 进行 初始 化 交换 ， 然后 使 用 公 钥 密 
码 ， 一旦 建立 共享 密 钥 ， 就 可 以 转换 到 密 钥 密码 学 上 来 。 每 个 转换 都 是 可 选 的 ， 都 通过 协商 进行 。 

因此 ， 安 全 通道 是 完全 可 配置 的 ， 它 允许 对 每 个 方向 上 的 通信 进行 加 密 和 认证 (但 是 不 要 求 
这 么 做 ) ， 这 使 得 计算 资源 不 必 因 为 执行 不 必要 的 加 密 操 作 而 消耗 掉 。 

TLS 协 议 的 细节 已 经 被 公布 并 标准 化 了 ， 一 些 软件 库 和 工具 包 能 够 支持 它 [Hirsch 1997， 
www.openssl.org]， 其 中 一 些 是 在 公众 领域 里 。TLS 已 被 整合 到 许多 应 用 软件 中 ， 其 安全 性 也 经 过 
独立 审核 得 到 验证 。 

TLS 由 两 层 组 成 (参见 图 7-16)。 一 层 是 TLS 记 录 协 议 层 ， 该 层 实现 了 一 个 安全 通道 ， 用 来 加 密 
和 认证 通过 任何 面向 连接 的 协议 传输 的 消息 ， 另 一 层 是 握手 层 ， 包 含 TLS 担 手 协议 和 两 个 其 他 相关 
协议 ， 它 在 客户 和 服务 器 之 间 建 立 并 维护 一 个 TLS 会 话 ( 即 一 个 安全 通道 )。 这 两 层 通常 都 是 用 客户 
和 服务 器 应 用 层 的 软件 库 实现 的 。TLS 记 录 协 议 是 一 个 会 话 层 协议 ， 可 以 用 来 在 保证 安全 性 、 完 整 
性 和 真实 性 的 前 提 下 在 进程 之 间 透 明 地 传送 应 用 层 数据 。 这 些 就 是 我 们 在 安全 模型 ( 见 2.3.3 节 ) 中 
为 安全 通道 指定 的 性 质 ， 但 是 这 些 性 质 在 TLS 中 是 可 选 的 ， 通信 各 方 可 以 选择 是 否 在 每 个 方向 上 都 
部 署 消 息 的 解密 和 认证 。 每 个 安全 会 话 被 赋予 一 个 标识 符 ， 通信 各 方 可 以 在 缓存 中 存储 会 话 标识 符 
以 备 以 后 重用 ， 当 要 求 与 相同 的 一 方 进行 其 他 安全 会 话 时 ， 便 可 避免 建立 新 会 话 的 系统 开销 。 


TLS 所 手 。TLS 改 变 。 TLS 报 警 






TLs 协 议 项 其 他 协议 围 | 
图 7-16 TLS 协 议 栈 (图 7-16~ 图 7-19 基 于 Hirsh[1997] 中 的 图 表 ， 并 得 到 Frederick Hirsch 的 出 版 许可 ) 
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TLS 被 广泛 用 于 在 现 有 应 用 层 协议 之 下 增加 一 个 安全 通信 层 。 它 最 常用 于 因特网 商务 和 其 他 安 
全 性 敏感 的 应 用 中 ， 以 保证 安全 的 HTTP 交 互 。 几 乎 所 有 Web 浏 览 器 和 Web 服 务 器 都 实现 了 TLS: 
它 通 过 在 URL 中 使 用 协议 前 级 https:， 在 浏览 器 和 和 Web 服务 器 间 建 立 起 一 个 TLS 安 全 通道 。 它 也 被 
广泛 地 部 署 以 提供 Telnet、FTP 和 许多 其 他 应 用 协议 的 安全 实现 。 对 于 那些 要 求 安全 通道 的 应 用 ， 
TLS 是 事实 上 的 标准 ， 它 通过 提供 CORBA 和 Java 的 API， 为 商业 和 公共 领域 提供 了 多 种 可 用 的 实 
现 选 择 。 

TLS 提 手 协议 如 图 7-17 所 示 。 担 手 操 作 是 在 一 个 已 建立 的 连接 上 进行 的 。 它 通过 交换 已 认可 的 
选项 和 参数 来 建立 TLS 会 话 ， 这 些 选 项 和 参数 是 执行 加 密 和 认证 所 需要 的 。 担 手 序列 根据 是 否 需要 
客户 和 服务 器 的 认证 而 变化 。 提 和 手 协议 也 可 以 在 之 后 改变 一 个 安全 通道 的 规约 时 调用 ， 例 如 ， 在 
通信 开始 时 可 能 只 用 消息 认证 码 来 认证 消息 。 在 这 之 后 可 以 使 用 加 密 。 这 是 通过 利用 现 有 的 通道 ， 
再 次 执行 提 手 协议 进行 协商 ， 从 而 获得 一 个 新 的 密码 规范 而 实现 的 。 








客户 呼叫 建立 协议 版 本 、 会 话 ID， 密 码 
人 。。 服务 器 呼叫 组 .压缩 方法 、 交 换 随 机 值 
| 证 书 
4 证 书 请 求 可 选择 地 发 送 服务 器 证 书 和 请 
“服务 器 呼叫 完成 求 客户 证 书 
证 书 器 
和 证 书 验证 “| 和 如 有 请 求 ， 发 送 客户 证 书 应 答 
上书 验证 。 
| “| 改变 密码 规范 
结束 变 密码 组 ， 结 束 所 
\ |。 到 机 密码 规 藻 改变 密码 组 ， 结 束 握手 


图 7-17 TLS 提 手 协议 


TLS 初 始 化 握手 易 受 到 7.2.2 节 场景 3 所 述 的 “中 间 人 ”攻击 。 为 了 防止 这 种 情况 ， 用 来 验证 接 
收 到 的 第 一 个 证 书 的 公 钥 可 以 通过 一 个 单独 的 通道 传送 一 例如 ， 经 由 CD-ROM 交 付 的 浏览 器 和 
其 他 因特网 软件 可 以 包括 一 些 著名 的 证 书 权威 机 构 的 公 钥 。 另 一 个 众所周知 的 服务 的 客户 防范 措 
施 ， 是 基于 在 它 的 的 公 钥 证 书 中 包含 了 服务 的 域名 一 一 客户 只 能 用 和 域名 相 一 致 的 下地 址 来 处 理 
服务 。 

TLS 支 持 密码 函数 的 多 种 选项 。 它 们 统称 为 密码 组 。 一 个 密码 组 为 图 7-18 所 示 的 每 个 特性 包含 
了 一 个 选项 。 










密 钠 交换 方法 ”用 来 交换 一 个 会 话 窗 钥 的 方法 ” 带 公 铀 证 书 的 RSA 


数据 传输 密码 ”用 于 数据 的 块 密码 或 流 密码 IDEA 
消息 摘要 消 数 ”用 于 创建 消息 认证 码 (MAC) SHA-1 





图 7-18 TLS 担 手 配置 选项 


客户 和 服务 器 上 预 装 各 种 带 有 标准 标识 符 的 常用 密码 组 。 在 握手 时 ， 服 务 器 为 客户 提供 了 可 
用 的 密码 组 标识 符 清单 ， 客 户 选 择 其 中 的 一 个 (如果 没有 匹配 选项 ， 则 给 出 错误 指示 )。 在 这 个 阶 
段 ， 它 们 也 就 压缩 方法 (可 选 的 ) 和 CBC 块 加 密 函 数 ( 见 7.3 节 ) 的 随机 起 始 值 达 成 一 致 。 

接 下 来 ， 通 信 双 方 按照 X.309 格 式 交 换 签 名 的 公 钥 证 书 进行 互相 认证 。 这 些 证 书 可 能 是 从 一 个 
公 钥 权威 机 构 获得 的 ， 或 者 只 是 为 此 目的 临时 生成 的 。 在 任何 情况 下 ， 至 少 有 一 个 公 钥 必须 是 在 
担 手 的 下 一 个 阶段 可 用 的 。 
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随后 通信 一 方 生 成 一 个 控制 前 的 密 文 ， 用 公 钥 加 密 后 发 送 给 另 一 方 。 控 制 前 密 文 是 一 个 大 随 
机 数 ， 通 信 双 方 都 使 用 这 个 数 生成 用 来 加 密 传 送 数据 的 两 个 会 话 密 钥 〈( 称 为 写 密 钥 ) 和 用 来 认证 
消息 的 消息 认证 密 文 。 当 这 些 工作 完成 后 ， 一 个 安全 会 话 就 开始 了 。 这 是 由 通信 双方 交换 的 
ChangeCipherSpec (改变 密码 规约 ) 消息 触发 的 。 随 后 是 Finished (结束 ). 消息 。 一 旦 交换 了 
Finished 消 息 ， 所 有 后 续 的 通信 就 可 以 根据 所 选 


i i 应 用 数据 abcdefghi 
的 密码 组 连同 议定 的 密 钥 进行 加 密 和 签名 。 部 限 愉 站 
图 7-19 显 示 出 记录 协议 的 操作 。 一 个 要 传输 记录 协议 单元 abc def ghi 
的 消息 首先 被 分 割 成 便于 处 理 的 块 ， 然 后 有 选择 压缩 
地 压缩 这 些 块 。 严 格 来 说 ， 压 缩 并 不 是 安全 通信 ”压缩 后 的 单元 
的 一 个 特性 ， 但 是 由 于 一 个 压缩 算法 可 以 参与 加 a 散 列 
密 和 数字 签名 算法 中 对 大 量 数据 的 处 理工 作 ， a 


此 在 这 里 提供 了 压缩 选项 。 换 句 话说 ， 数 据 转 换 “加密 后 的 数据 到 人 
管道 可 以 在 TLS 记 录 层 中 建立 ， 由 TLS 记 录 层 执 传输 
行 所 有 转换 ， 这 种 转换 比 独立 转换 更 有 效 。 TCF 数据 包 本 计 

加 密 和 消息 认证 (MAC) 转换 部 署 了 经 协 
商 后 的 密码 组 中 指定 的 算法 ， 如 7.3.1 节 和 7.4.2 节 
所 述 。 最 后 通过 相关 的 TCP 连 接 ， 将 签名 和 加 密 后 的 数据 块 传送 给 另 一 方 ， 接 收 方 执行 逆向 转换 ， 
生成 原始 数据 块 。 

小 结 TLS 提 供 了 一 个 实用 的 的 混合 加 密 方案 的 实现 , 它 能 进行 认证 和 基于 公 钥 进行 密 钥 交换 。 
因为 密码 在 担 手中 协商 ， 所 以 它 不 依赖 于 任何 专门 的 算法 ， 也 不 依赖 于 会 话 建立 时 的 任何 安全 服 
务 。 唯 一 需要 的 是 权威 机 构 发布 的 通信 双方 认可 的 公 钥 证 书 。 

由 于 作为 TLS 基 础 的 SSL 协 议 及 其 参考 实现 的 公布 [Netscape 1996]， 它 逐渐 成 为 争论 的 主题 。 
早期 的 设计 已 经 有 了 一 些 修改 ， 作 为 一 种 有 价值 的 标准 ， 它 得 到 了 广泛 的 认可 。 现 在 TLS 已 经 被 集 
成 到 大 多 数 Web 浏 览 器 和 Web 服 务 器 中 ， 也 被 应 用 于 诸如 安全 Telnet、FTP 等 其 他 应 用 中 。 商 业 和 
公共 领域 [www.rsasecurity.com，Hirsch 1997， www.openssl.org ] 实 现 通常 以 程序 库 和 浏览 器 插件 
的 形式 供用 户 使 用 。 


7.6.4 IEEE 802.11 WiFi 安 全 设计 中 的 缺陷 


3.5.2 节 描述 的 面向 无 线 局 域 网 的 IEEE 802.11 标 准 最 初 是 于 1999 年 发 布 的 [IEEE 1999]。 从 发 布 
之 日 起 ， 它 就 被 广泛 应 用 在 移动 通信 领域 ， 有 许多 基站 、 笔 记 本 电脑 和 便携 设备 都 实现 了 这 个 规 
约 。 遗 憾 的 是 ， 人 们 不 久 就 发 现 了 这 个 标准 的 安全 设计 在 某 些 方面 有 严重 的 缺陷 。 我 们 将 简要 介 
绍 它 的 最 初 设计 和 安全 缺陷 ， 并 以 此 作为 7.1.3 节 提 到 过 的 安全 设计 困难 的 一 个 实例 。 

大 家 认为 ， 无 线 网 络 比 有 线 网 络 更 容易 遭受 攻击 ， 因 为 网 络 和 传输 数据 很 容易 被 装备 有 同 频 
收发 器 的 设备 所 窃听 和 算 改 。 最 初 的 802.11 协 议 用 于 为 WiFi 网 络 提供 访问 控制 ， 并 且 依 照 称 为 有 
线 等 效 加 窗 (Wired Equivalent Privacy，WEP) 的 安全 规约 保证 传输 数据 的 私密 性 与 完整 性 。 
WEP 包 含 下 面 几 项 ， 网 络 管理 员 可 以 有 选择 地 激活 这 些 项 。 

访问 控制 : 通过 质询 -应 答 协 议 进行 访问 控制 (cf. Kerberos, 7.6.2 节 )， 即 当 一 个 节点 加 入 网 
络 时 ， 基 站 会 质询 该 节点 是 否 有 正确 的 共享 密 钥 。 网 络 管理 员 会 指定 一 个 密 钥 K， 并 将 K 在 基站 和 
所 有 已 认证 的 设备 之 间 共 享 。 

私密 性 与 完整 性 : 使 用 任 一 种 基于 RC4 流 密码 的 加 密 机 制 来 保证 私密 性 与 完整 性 。 加 密 过 程 中 
使 用 的 密 钥 与 访问 控制 中 使 用 的 密 钥 ， 都 为 K。 密 钥 长 度 可 以 是 40、64 或 128 比 特 。 每 个 分 组 通过 
包含 加 密 校 验 和 来 保证 其 完整 性 。 

在 803.11 标 准 公布 不 入， 便 被 发 现 有 下 列 缺 陷 和 设计 弱点 ， 


图 7-19 TLS 记 录 协 议 
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网 络 用 户 共享 单 一 的 密 钥 是 设计 中 的 一 个 缺陷 ， 因 为 在 实践 中 会 有 下 面 的 问题 : 

“ 密 钥 可 能 在 未 受 保护 的 信道 上 发 送 给 一 个 新 的 用 户 。 

“一 个 粗心 的 或 是 恶意 的 用 户 (例如 ， 心 怀 不 满 的 前 雇员 ) 拥有 访问 密 钥 的 权限 ， 他 们 会 破坏 

整个 网 络 的 安全 性 ， 而 且 这 种 破坏 有 可 能 完全 不 被 发 觉 。 

解决 办 法 : 像 TLS/SSL ( 见 7.6.3 节 ) 所 采用 的 一 种 基于 公 钥 的 协议 一 样 ， 通 过 协商 获得 私有 
密 钥 。 

基站 是 不 需要 认证 的 ， 所 以 一 个 知道 当前 共享 密 钥 的 攻击 者 可 以 采取 欺骗 手段 ， 窃 听 ， 添 加 
或 自 改 任何 消息 。 

解决 办 法 : 基站 应 当 提供 一 个 证 书 ， 它 可 以 通过 第 三 方 提供 的 公 钥 被 认证 。 

WEP 不 恰当 地 使 用 了 流 密码 ， 而 没有 使 用 块 密码 ( 见 7.3 节 对 流 密码 和 块 密码 的 描述 )。 图 7-20 
给 出 了 802.11 WEP 安 全 协议 下 的 加 密 和 解密 流程 。 每 个 分 组 都 通过 与 一 个 RC4 算 法 产生 的 密 钥 流 
进行 XOR 操 作 来 加 密 。 接 收 站 利用 RC4 算 法 产生 一 个 相同 的 密 钥 流 ， 并 通过 XOR 操 作对 每 一 个 分 
组 进行 解码 。 为 了 避免 密 钥 流 在 分 组 丢失 或 被 破坏 时 产生 同步 错误 ，RC4 算 法 会 用 一 个 新 的 起 始 值 
重新 开始 ， 这 个 起 始 值 是 通过 在 全 局 共享 密 钥 后 面 连接 一 个 24 比 特 的 初始 值得 到 的 。 这 个 初始 值 被 
更 新 并 被 包含 在 每 一 个 传输 分 组 中 。 共 享 密 钥 在 大 多 数 应 用 中 不 会 轻易 改变 ， 所 以 起 始 值 仅 有 S = 
2”( 约 10”) 个 不 同 的 状态 。 因 此 ， 在 发 送 过 107 个 分 组 后 就 会 产生 重复 的 起 始 值 以 及 密 钥 流 。 在 实 
际 系统 中 ， 这 种 情况 在 几 个 小 时 内 就 会 发 生 ， 而 且 当 有 分 组 丢失 时 ， 产 生 重复 起 始 值 的 周期 会 更 
短 。 攻 击 者 从 截获 的 加 密 分 组 中 总 可 以 侦 测 出 重复 出 现 的 起 始 值 ， 因 为 这 些 起 始 值 显 式 地 包含 于 
分 组 中 。 


加 密 解密 
这 二 增 量 


K 
! 


! 


I xOR. -> 


IV: 初始 值 
K: 共享 密 钥 





图 7-20 IEEE 802.11 WEP 中 使 用 的 RC4 流 加 密 


RC4 规 范 中 对 密 钥 流 的 重复 问题 给 出 了 明确 的 警告 。 因 为 如 果 攻 击 者 截获 了 加 密 分 组 C,， 并 且 
知道 明文 P，( 例 如 ， 通 过 猜测 密 文 是 一 个 标准 的 服务 器 问讯 信息 ) 就 能 计算 出 用 于 加 密 分 组 的 密 钥 
流 K,。 同 样 的 K 值 在 5 个 分 组 之 后 又 会 重 现 ， 于 是 攻击 者 就 可 以 通过 已 知 的 K 来 解密 这 个 分 组 。 通 
过 正确 地 猜测 明文 分 组 ， 攻 击 者 最 终 可 以 解密 大 部 分 的 分 组 。Borisov 等 [2001] 首 先 指出 了 这 个 安 
全 缺陷 ， 并 领导 了 对 WEP 安 全 机 制 的 重新 评估 以 及 在 802.11 的 更 新 版 本 中 使 用 的 新 的 安全 机 制 。 

解决 办 法 : 根据 最 坏 情况 下 密 钥 序 列 重复 出 现时 间 ， 选 择 一 个 小 于 它 的 时 间 段 。 每 个 时 间 自 
后 通过 协商 获得 新 的 密 钥 。 和 在 TLS 中 一 样 ， 这 个 过 程 需要 一 个 明确 的 中 止 代 码 。 

正如 7.5.2 节 中 论 及 的 ， 由 于 美国 政府 严格 限制 出 口 设备 的 密 钥 长 度 最 多 为 40 比 特 (后 改 为 64 
比特 )， 因 此 ，802.11 标 准 中 同时 引进 了 40 比 特 和 64 比 特 两 种 密 钥 长 度 。 但 40 比 特 密 钥 很 容易 被 强 
行 攻击 破解 ， 因 此 40 比 特 密 钥 提供 的 安全 保障 有 限 。 即 使 是 64 比 特 的 密 钥 也 会 有 因 持 续 攻击 而 被 
破解 的 危险 。 
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解决 方法 : 使 用 128 比 特 密 钥 。 最 近 许 多 WiFi 产 品 都 使 用 了 128 比 特 密 钥 。 

在 802.11 标 准 公 布 后 ， 就 发 现 RC4 流 密码 即使 在 密 钥 流 没 有 出 现 重复 的 情况 下 ， 通 过 观察 真实 
的 数据 流质 量 也 可 能 泄漏 密 钥 [Fluhrer et al. 2001]。 这 个 缺陷 已 经 在 实践 中 被 证 明 ， 这 个 缺陷 说 明 即 
使 使 用 128 比 特 的 密 钥 ，WEP 方 案 也 并 不 安全 ， 有 些 公司 也 因此 限制 他 们 的 雇员 使 用 WiEi 网 络 。 

解决 办 法 : 采用 类 似 TLS 的 办 法 ， 提 供 一 种 协商 机 制 来 决定 选择 何 种 密码 规约 以 及 加 密 算法 。 
RC4 算 法 是 被 紧 紧 绑 定 在 WEP 标 准 中 的 ， 它 不 提供 选择 其 他 加 密 算法 的 协商 机 制 。 

用 户 通常 不 会 部 署 WEP 提 供 的 保护 机 制 ， 其 原因 可 能 是 用 户 没有 意识 到 他 们 的 数据 是 暴露 的 。 
这 并 不 是 标准 设计 时 的 缺陷 ， 而 是 产品 所 基于 的 市 场 造成 的 。 大 多 数 产品 的 初始 设置 都 会 关闭 安 
全 功能 ， 而 且 与 安全 风险 相关 的 文档 常常 不 足 。 

解决 办 法 : 提供 更 好 的 默认 设置 和 文档 。 但 是 用 户 往往 更 注重 获得 更 好 的 性 能 ， 而 当 硬 件 可 
用 的 情况 下 ， 开 启 加 密 功 能 会 明显 减 慢 通信 的 速度 。 用 户 避 免 使 用 WEP 加 密 功能 的 需求 导致 基站 
需要 增加 新 的 特性 ， 即 基站 不 可 以 像 平 常 那样 将 含有 识别 信息 的 分 组 广播 出 去 ， 并 且 拒 绝 从 未 经 
认证 的 MAC 地 址 〈 见 3.5.1 节 ) 发 来 的 分 组 。 但 上 述 措施 也 不 足以 提供 足够 的 安全 保障 ， 因 为 网 络 
中 的 分 组 容易 被 截获 (“ 噶 探 ")， 而 且 可 以 通过 修改 操作 系统 轻易 地 自 改 MAC 地 址 。 

2004 年 发 布 的 IEEE 802.11i 是 针对 802.11 安 全 标准 的 升级 版 本 ， 它 修正 了 上 述 的 所 有 缺陷 ， 在 
新 的 版 本 中 使 用 了 互相 认证 ， 通 过 动态 的 协商 获得 成 对 的 密 钥 ， 以 及 使 用 AES 加 密 算法 等 措施 
[BEE 2004b, Edney and Arbaugh 2003]。 


7.7 小 结 


分 布 式 系统 常常 面临 安全 威胁 。 保 护 通信 通道 和 可 能 成 为 攻击 目标 的 用 于 信息 处 理 的 系统 的 
接口 是 非常 重要 的 。 个 人 电子 邮件 、 电 子 商 务 和 其 他 金融 交易 都 是 这 样 的 信息 。 要 小 心地 设计 安 
全 协议 以 防止 出 现 漏 润 。 安 全 系统 的 设计 从 一 系列 威胁 和 一 组 最 坏 情况 的 假设 开始 。 

安全 机 制 基于 公 钥 密码 学 和 密 钥 密码 学 。 密 码 算 法 以 某 种 方式 榜 乱 原 有 的 消息 ， 在 不 知道 解 
窗 密 钥 的 情况 下 不 可 能 对 密 文 解密 。 密 钥 密 码 学 是 对 称 的 ， 即 加 密 和 解密 使 用 相同 的 密 钥 。 如 果 
通信 双方 共享 一 个 密 钥 ， 那 么 他 们 可 以 交换 加 密 后 的 信息 ， 而 不 存在 被 窃听 和 算 改 的 风险 ， 并 且 
能 保证 信息 的 真实 性 。 

公 钥 密码 学 是 非 对称 的 ， 即 加 密 和 解密 使 用 不 同 的 密 钥 ， 只 知道 其 中 一 个 密 钥 不 会 泄露 另 一 
个 密 钥 。 一 个 密 钥 是 公开 的 ， 任 何人 可 以 发 送 安全 消息 给 相应 的 私 钥 持 有 者 ， 允 许 私 钥 持 有 者 对 
消息 和 证 书 进行 签名 。 证 书 可 以 作为 使 用 被 保护 的 资源 的 凭证 。 

资源 通过 访问 控制 机 制 得 到 保护 。 访 问 控制 方案 把 权限 分 派 给 持 有 凭证 的 主体 ， 使 之 能 对 分 
布 式 对 象 和 对 象 集合 执行 操作 。 权 限 可 以 保存 在 与 对 象 集合 相关 联 的 访问 控制 列表 里 (ACL)， 或 
者 由 主体 以 权能 的 形式 持 有 ， 权 能 是 不 可 伪造 的 访问 资源 集合 的 密 钥 。 使 用 权能 对 于 授予 访问 权 
限 来 说 十 分 便利 ， 但 是 很 难 收回 。 对 ACL 的 改变 能 即刻 生效 ， 能 收回 以 前 的 访问 权限 ， 但 是 对 于 
ACL 的 管理 比 对 权能 的 管理 复杂 得 多 ， 也 昂贵 得 多 。 

直到 最 近 ，DES 加 密 算法 才 成 为 最 为 广泛 使 用 的 对 称 加 密 方案 ,但 是 56 比 特 的 密 钥 长 度 不 足 
以 防止 强行 攻击 。DES 的 第 3 版 实现 了 112 比 特 密 钥 ， 读 长 度 是 安全 的 ， 但 其 他 的 算法 (例如 IDEA 
和 AES) 的 运行 速度 更 快 而 且 提 供 了 更 高 的 安全 性 。 

RSA 是 使 用 最 为 广泛 的 非 对 称 加 密 方案 。 为 了 防范 因数 分 解 攻击 ， 它 应 该 使 用 768 比 特 或 更 
长 的 密 钥 。 密 钥 对称) 算法 比 公 钥 ( 非 对 称 ) 算法 性 能 优越 好 几 个 数量 级 ， 因 此 公 钥 算法 一 般 
只 用 于 混合 协议 (如 TLS) 中 ， 例 如 在 TLS 中 建立 安全 通道 后 ， 就 可 以 使 用 共享 密 钥 进 行 后 续 的 
交换 。 


Needham-Schroeder 认 证 协议 是 第 一 个 通用 的 、 实 用 的 安全 协议 ， 它 为 许多 实际 的 系统 商定 了 
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基础 。Kerberos 是 一 个 设计 优良 的 用 于 在 单个 组 织 中 进行 用 户 认 证 和 服务 保护 的 方案 。Kerberos 基 
于 Needham-Schroeder 协 议和 对 称 密码 学 。TLS 是 广泛 运用 于 电子 商务 中 的 安全 协议 。 它 是 个 灵活 
的 协议 ， 用 于 建立 和 使 用 基于 对 称 密码 学 和 非 对 称 密 码 学 的 安全 通道 。 有 关 IEEE 802.11 WiFi 安 全 
协议 的 缺陷 的 讨论 ， 使 我 们 对 安全 设计 中 可 能 遇 到 的 困难 有 了 客观 的 认识 。 


练习 


7.1 描述 你 所 在 机 构 的 一 些 物理 安全 策略 ， 参 照 一 个 计算 机 化 的 门 锁 系统 中 实现 的 方式 来 表达 。 
(第 266 页 ) 
7.2 举例 说 明 传统 的 电子 邮件 易 受 到 窗 听 、 伪 装 、 纂 改 、 重 播 以 及 拒绝 服务 攻击 的 情形 。 针 对 每 
种 攻击 形式 电子 邮件 应 如 何 采取 相应 的 保护 措施 提出 建议 。 (第 268 页 ) 
7.3 公 钥 的 初始 交换 易 受 到 中 间 人 攻击 。 尽 可 能 多 地 描述 相应 的 防范 措施 。 (第 275 页 ， 第 313 页 ) 
7.4 PGP 被 通常 应 用 于 安全 电子 邮件 通信 。 在 保证 私密 性 和 真实 性 的 前 提 下 ， 描 述 两 个 用 户 交换 
电子 邮件 消息 前 ， 使 用 PGP 的 步骤 。 在 哪些 范围 内 要 使 初始 密 钥 协 商 对 用 户 不 可 见 ? (PGP 


协商 是 混合 方案 的 一 个 实例 )。 (第 295 页 ， 第 304 页 ) 
7.5 ”如何 使 用 PGP 或 其 他 类 似 的 方案 把 电子 邮件 发 送 给 一 个 大 的 接收 者 列表 。 当 这 个 列表 被 频繁 
使 用 时 ， 试 提出 一 个 更 为 简单 快速 的 方案 。 (第 304 页 ，4.5 节 ) 


7.6 图 7-7 一 图 7-9 中 给 出 的 TEA 对 称 加 密 算 法 的 实现 不 可 在 所 有 的 机 器 间 移 植 ， 试 解释 原因 。 如 何 
使 一 个 用 TEA 算法 实现 加 密 的 消息 被 传送 ， 并 正确 地 在 所 有 其 他 的 体系 结构 中 进行 解密 ? 


(第 290 页 ) 
7.7 修改 图 7-10 中 的 TEA 应 用 程序 以 使 用 密码 块 链接 (CBC)。 (第 287 页 ， 第 290 页 ) 
7.8 根据 图 7-9 中 程序 ， 构 建 一 个 流 密码 的 应 用 程序 。 (第 288 页 ， 第 290 页 ) 


7.9 试 估计 使 用 一 个 2000MIPS (每 秒 兆 指令 ) 的 工作 站 ， 通 过 强行 攻击 破解 一 个 56 比 特 DES 密 钥 
需要 的 时 间 ， 已 知 强行 攻击 程序 的 内 循环 对 于 每 个 密 钥 值 需要 10 个 指令 ， 再 加 上 加 密 一 个 8 比 
特 明文 的 时 间 ( 见 图 7-13)。 对 于 一 个 128 比 特 IDEA 密 钥 进 行 同样 的 计算 。 推 测 如 果 使 用 一 个 
200 000 MIPS 的 并 行 处 理 器 (或 是 一 个 具有 相同 处 理 能 力 的 因特网 社团 ) 所 需 的 破解 时 间 。 
(第 291 页 ) 
7.10 在 带 有 密 钥 的 Needhan-Shroeder 认 证 协议 中 ， 试 解释 为 什么 下 面 的 消息 5 的 版 本 是 不 安全 的 ; 
A 一 B: {Neyx,, 
(第 306 页 ) 
7.11 回顾 在 讨论 802.11 WEP 协 议 设计 时 的 解决 办 法 ， 大 致 给 出 每 种 解决 办 法 的 实现 方法 ， 以 及 遇 
到 的 困难 。 (第 317 页 ) 
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第 8 章 ”分布 式 文件 系统 


分 布 式 文件 系统 使 程序 可 以 像 对 本 地 文件 那样 对 远程 文件 进行 存储 和 访问 ， 人 允许 用 户 访问 网 
络 中 的 任 一 计算 机 上 的 文件 。 访 问 存储 在 服务 器 上 的 文件 时 应 该 能 获得 与 访问 本 地 磁盘 文件 类 似 
的 性 能 和 可 靠 性 。 

在 本 章 中 ， 我 们 将 给 出 文件 系统 的 一 个 简单 体系 结构 ， 并 且 介 绍 两 种 已 被 广泛 使 用 20 多 年 的 
分 布 式 文件 系统 : 

。Sun 网 络 文件 系统 (NFS) 

。Andrew 文 件 系统 (AFS) 

这 两 个 实例 都 模拟 了 UNIX 文 件 系统 接口 ， 但 它们 有 具 有 不 同 的 可 扩展 性 和 容错 能 力 ， 以 及 同 
UNIX 中 的 单 拷贝 文件 修改 语义 的 差异 程度 。 

我 们 还 将 回顾 一 些 相关 的 文件 系统 ， 它 们 采用 了 新 的 磁盘 数据 组 织 模式 、 高 性 能 的 多 服务 器 
访问 、 容 错 和 可 伸缩 性 的 文件 系统 。 书 中 的 其 他 地 方 还 将 介绍 其 他 类 型 的 分 布 式 存储 系统 ， 其 中 
包括 点 对 点 存储 系统 (第 10 章 )、 复 制 文件 系统 (第 15 章 ) 和 多 媒体 数据 服务 器 (第 17 章 )。 


8.1 简介 


在 第 1! 章 和 第 2 章 中 ， 我 们 已 经 说 明 共 享 资源 是 分 布 式 系统 的 主要 目标 。 共 享 存储 信息 可 能 是 
分 布 式 资源 共享 的 一 个 最 重要 的 方面 。 共 享 数据 机 制 有 许多 种 形式 ， 我 们 将 在 本 书 中 的 相关 部 分 
分 别 介绍 。Web 服 务 器 提供 了 一 种 严格 的 数据 共享 ， 其 中 客户 可 以 通过 因特网 访问 存储 在 服务 器 
本 地 的 文件 。 但 是 ， 通 过 Web 服 务 器 获得 的 数据 是 由 服务 器 端 或 分 布 于 本 地 网 中 的 文件 系统 来 管 
理 和 更 新 的 。 大 规模 广 域 可 读 写 文件 存储 系统 会 产生 负载 平衡 、 可 靠 性 、 可 用 性 和 安全 性 问题 ， 
将 在 第 10 章 介绍 的 对 等 网 络 文件 存储 系统 的 目标 就 是 解决 这 些 问题 。 第 15 章 将 重点 讨论 复制 存储 
系统 ， 它 适合 于 需要 对 存储 在 系统 上 的 数据 进行 可 靠 访问 的 应 用 ， 而 系统 中 单独 的 主机 不 能 保证 
可 用 性 。 在 第 17 章 中 ， 我 们 将 介绍 一 种 媒体 服务 器 ， 它 用 来 满足 大 量 用 户 实时 的 视频 数据 流传 输 。 

局 域 网 和 企业 内 部 网 中 的 共享 需求 产生 了 一 种 不 同类 型 的 服务 ， 它 能 够 为 客户 端 提供 各 种 类 
型 的 程序 和 数据 的 存储 持久 性 ， 以 及 更 新 数据 的 分 布 一 致 性 。 本 章 的 主要 目的 是 讨论 基本 分 布 式 
文件 系统 的 体系 结构 和 实现 。 我 们 在 这 里 使 用 的 “基本 ”一 词 ， 表 示 分 布 式 文件 系统 的 主要 目的 
是 在 多 个 远程 计算 机 系统 上 为 客户 模拟 非 分 布 式 文件 系统 的 功能 。 它 并 不 维持 一 个 文件 的 多 个 持 
久 副 本 ， 也 不 提供 多 媒体 数据 流 所 需 的 宽带 和 实时 保证 这 些 需 求 会 在 后 面 的 章节 中 讨论 。 基 
本 分 布 式 文件 系统 为 企业 内 部 网 上 的 有 组 织 计 算 提 供 了 必要 支持 。 

文件 系统 最 初 是 为 集中 式 计 算 机 系统 和 台式 机 开发 的 ， 它 作为 一 种 操作 系统 设施 提供 方便 的 
磁盘 存储 的 程序 接口 。 后 来 ， 它 们 加 入 了 访问 控制 和 文件 锁 机 制 以 实现 数据 和 程序 的 共享 。 在 企 
业内 部 网 中 ， 分 布 式 文件 系统 以 文件 形式 支持 信息 共享 ， 并 以 持久 存储 的 形式 支持 硬件 资源 共享 
等 。 一 个 设计 良好 的 文件 服务 提供 与 访问 局 域 文 件 性 能 和 可 靠 性 相似 甚至 更 好 的 分 布 式 文件 访问 。 
它们 的 设计 能 适应 局 域 网 的 性 能 和 可 靠 性 特点 ， 因 此 它们 能 提供 在 企业 内 部 网 中 使 用 的 更 有 效 的 
共享 永久 存储 。 在 20 世 纪 70 年 代 ， 研 究 者 开发 出 第 一 个 文件 服务 器 [Birrell and Needham 1980， 
Mitchell and Dion 1982，Leach et al. 1983]， 在 20 世 纪 80 年 代 早 期 ，Sun 的 网 络 文件 系统 [Sandberg 
et al. 1985，Callaghan 1999] 也 开始 被 使 用 了 。 
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分 布 式 文件 系统 的 文件 服务 允许 用 户 在 企业 内 部 网 上 的 任 一 计算 机 上 访问 自己 的 文件 ， 程 序 
可 以 像 对 待 本 地 文件 一 样 存储 和 访问 远程 文件 。 在 几 台 服务 跨 上 集中 存储 文件 可 以 减少 本 地 磁盘 
存储 ， 更 重要 的 是 可 以 使 对 组 织 机 构 拥 有 的 持久 数据 的 归档 和 管理 更 有 效率 。 对 于 名 字 服 务 、 用 户 
认证 服务 和 打印 服务 等 其 他 服务 ， 当 它们 可 以 调用 文件 服务 满足 它们 的 持久 存储 需求 时 ， 它 们 可 以 
更 容易 实现 。Web 服 务 器 依赖 于 文件 系统 来 存储 其 网 页 。 在 一 个 可 以 操纵 Web 服 务 器 通过 企业 内 部 
网 进行 外 部 和 内 部 访问 的 机 构 中 ， 而 Web 服 务 器 经 常 从 本 地 分 布 式 文件 系统 中 获取 和 存储 数据 。 

随 着 分 布 式 面向 对 象 编程 的 出 现 ， 用 户 需要 系统 提供 对 共享 对 象 的 永久 存储 和 分 布 。 一 种 实 
现 方法 是 序列 化 对 象 〈( 按 4.3.2 节 描述 的 方式 ) ， 并 使 用 文件 存储 和 检索 序列 化 对 象 。 但 对 于 快速 变 
化 的 对 象 来 说 ， 这 种 获得 持久 性 和 分 布 性 的 方法 是 不 可 行 的 ， 因 此 研究 者 开发 出 一 些 更 直接 的 方 
法 。Java 的 远程 对 象 调用 和 CORBA 的 ORB 提 供 了 访问 远程 共享 对 象 的 方式 ， 但 它们 都 不 能 保证 对 
象 的 持久 性 ， 也 不 保证 对 分 布 式 对 象 的 复制 。 

图 8-1 概 述 了 不 同类 型 的 存储 系统 。 除 了 已 经 提 到 的 存储 系统 ， 表 中 还 包括 了 分 布 式 共享 内 存 
(DSM) 系统 和 持久 对 象 存储 ， 第 18 章 将 详细 介绍 DSM。DSM 通 过 在 每 一 个 主机 上 复制 内 存 页 或 
内 存 段 ， 实 现 了 对 共享 内 存 的 模拟 。 它 不 一 定 要 提供 自动 持久 性 。 持 久 对 象 存储 已 在 第 5 章 介绍 过 
了 ， 其 目标 是 为 分 布 式 共享 状态 提供 持久 性 。 此 类 例子 有 CORBA 的 持久 状态 服务 ( 见 第 20 章 ) 和 
Java 的 持久 性 扩充 [Jordan 1996 java.sun.com VIH]。 一 些 研究 项 目 已 经 开发 出 了 支持 自动 复制 和 对 
象 持久 存储 的 平台 (例如 ，PerDis[Ferreira et al. 2000] 和 Khazana[Carter et al. 1998]) 。 点 对 点 存储 
系统 提供 了 更 大 的 伸缩 性 ， 以 支持 比 本 章 介绍 的 系统 大 很 多 的 客户 负载 。 但 是 ， 它 们 为 了 提供 安 
全 访问 控制 和 可 更 新 复 本 间 的 一 致 性 而 付出 了 高 额 的 性 能 代价 。 

























分 布 式 维护 例子 
持久 性 ”缓存 / 复 本 一 致 性 
让 存 x x x 1 RAM 
文件 系统 x vV x 1 UNIX 文 件 系统 
分 布 式 文件 系统 vV v vV ye Sun NFS 
Web Vv Vv Vv x Web 服务 器 
分 布 式 共享 内 存 vV x vV Vv Ivy (DSM， 第 18 章 ) 
远程 对 象 (RMUORB) vv x x 1 CORBA 
持久 对 象 存储 v Vv x 1 CORBA 持久 状态 服务 
持久 分 布 式 对 象 存储 Vv v Vv 2 OceanStore (第 10 章 ) 






一 致 性 类 型 : 1: 严格 的 单 份 复制 ，w : 弱 保 证 ，2: 非常 弱 的 保证 。 
图 8-1 存储 系统 以 及 它们 的 性 质 


其 中 ， 一 致 性 这 一 列表 示 当 数据 进行 更 新 时 是 否 有 一 种 机 制 来 维护 其 数据 的 多 个 拷贝 之 间 的 一 
致 性 。 实际 上 ,所 有 存储 系统 都 使 用 缓存 来 优化 程序 的 性 能 , 缓存 首先 应 用 到 主 存 和 非 分 布 式 系统 ， 
对 它们 而 言 ， 一 致 性 是 严格 的 〈 在 图 8-1 中 用 “1” 表 示 一 个 拷贝 的 一 致 性 ) 一 一 在 更 新 后 ， 程 序 不 
能 发 现存 储 数 据 与 其 缓 在 拷贝 之 间 的 任何 区 别 。 使 用 分 布 式 副本 时 ， 很 难 达到 严格 的 一 致 性 。 像 
Sun NFS 和 Andrew 文 件 系统 这 样 的 分 布 式 文件 系统 会 将 客户 机 的 一 部 分 文件 拷贝 缓存 起 来 ， 并 且 采 
用 一 种 特定 的 一 致 性 机 制 来 维持 一 近似 的 致 性 。 这 在 图 8-1 的 “一 致 性 ” 列 中 用 “wv” 来 表示 
我 们 将 在 8.3 节 和 8.4 节 讨论 这 些 机 制 和 它们 与 严格 一 致 性 的 偏离 程度 。 

Web 使 用 客户 机 上 的 缓存 和 由 用 户 组 织 维护 的 代理 服务 器 上 的 缓存 。 在 Web 代 理 和 客户 机 缓存 
上 的 拷贝 和 原 服务 器 中 数据 的 一 致 性 只 能 由 用 户 行为 来 维持 。 当 原 服务 器 中 的 网 页 更 新 时 并 不 通 
知客 户 ， 他 们 必须 进行 检查 才能 保持 他 们 的 本 地 拷贝 为 最 新 版 本 。 在 网 页 浏览 中 ， 这 就 能 够 满足 
要 求 了 ， 但 它 不 能 支持 像 共 享 分 布 式 白板 这 样 的 协作 式 应 用 程序 的 开发 。 第 18 章 将 详细 介绍 DSM 
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系统 使 用 的 一 致 性 机 制 。 不 同 的 持久 对 象 系统 使 用 缓存 和 一 致 性 的 方法 的 差别 相当 大 。CORBA 和 
持久 Java 方 案 只 维护 持久 对 象 的 单一 拷贝 ， 访 问 这 些 对 象 需要 使 用 远程 调用 ， 所 以 唯一 的 一 致 性 问 
题 是 内 存活 动 拷贝 和 磁盘 上 对 象 的 持久 拷贝 之 间 的 一 致 性 ， 这 对 远程 用 户 是 不 可 见 的 。 前 面 提 到 
的 PerDiS 和 Khazana 项 目 维护 缓存 的 对 象 副 本 ， 并 采用 了 相当 完备 的 一 致 性 机 制 来 产生 与 DSM 系 统 
中 相似 的 一 致 性 形式 。 

在 讨论 了 与 持久 和 非 持久 数据 的 存储 及 分 布 相关 的 问题 之 后 ， 我 们 现在 回 到 本 章 的 主题 一 一 
基本 分 布 式 文件 系统 的 设计 。 我 们 将 在 8.1.1 节 介绍 ( 非 分 布 式 的 ) 文件 系统 的 相关 特性 ， 在 8.1.2 
节 介绍 分 布 式 文件 系统 的 需求 ， 在 8.1.3 节 介绍 贯穿 本 章 的 实例 。 在 8.2 节 中 ， 我 们 将 定义 基本 分 布 
式 文件 服务 的 抽象 模型 ， 其 中 包括 程序 的 接口 集 。8.3 节 将 介绍 Sun NFS 系 统 ， 它 具有 抽象 模型 的 
许多 特征 。 在 8.4 节 中 ， 我 们 将 描述 Andrew 文 件 系统 一 一 它 是 一 种 被 广泛 使 用 的 系统 ， 采 用 了 完全 
不 同 的 缓存 和 一 致 性 机 制 。8.5 节 将 回顾 在 文件 服务 设计 领域 的 最 近 的 进展 。 

本 章 所 描述 的 系统 并 没有 包括 分 布 式 文件 和 数据 管理 系统 的 所 有 情形 。 本 书后 面 的 章 将 会 介 
绍 几 个 更 先进 的 系统 。 第 15 章 将 介绍 Coda 系 统 ， 它 是 一 种 分 布 式 文件 系统 ， 为 了 维持 其 可 靠 性 、 
可 用 性 和 断 链 工作 ， 它 维护 文件 的 多 个 持久 拷贝 。 在 第 15 章 还 将 介绍 一 种 分 布 式 数据 管理 系统 
Bayou， 它 为 了 实现 高 可 靠 性 ， 提 供 了 副本 的 弱 一 致 性 形式 。 第 17 章 将 介绍 Tiger 视 频 文件 服务 器 ， 
它 的 目的 是 为 大 量 的 客户 提供 实时 的 数据 流传 输 。 





8.1.1 文件 系统 的 特点 pa 

文件 系统 负责 文件 的 组 织 、 存 储 、 检 索 、 命 名 、 共 享 和 保护 。 二 
它 提 供 了 描述 文件 抽象 的 程序 接口 ， 这 样 程序 员 就 不 必 关 心 存储 分 写 时 间 台 
配 以 及 存储 布局 的 细节 。 文 件 存储 在 磁盘 或 其 他 稳定 的 存储 介质 上 。 属性 时 间 台 

文件 包括 数据 和 属性 。 其 中 ， 数 据 部 分 包括 一 系列 的 数据 项 引用 计数 
(通常 是 8 位 )， 读 和 写 操作 可 访问 这 些 数据 项 的 任何 部 分 。 属 性 部 he 
分 用 一 个 记录 表示 ， 其 中 包括 文件 长 度 、 时 间 蕉 、 文 件 类 型 、 拥 访问 控制 列表 





有 者 身份 和 访问 控制 列表 等 信息 。 图 8-2 描 述 了 一 个 典型 的 属性 记 一 
录 结 构 。 其 中 带 阴影 的 属性 是 由 文件 系统 管理 的 ， 用 户 程序 不 能 。 ”图 8-2 文件 属性 记录 结构 
更 新 它 。 

文件 系统 用 来 存储 和 管理 大 量 的 文件 ， 它 具有 创建 、 命 名 和 删除 文件 的 功能 。 应 用 目录 系统 
可 以 为 文件 命名 提供 帮助 。 和 目录 通常 是 一 种 特殊 类 型 的 文件 ， 它 提供 从 文本 名 字 到 内 部 文件 标识 
符 的 映射 。 目 录 可 以 包括 其 他 目录 的 名 字 ， 这 样 就 


形成 了 一 种 层次 化 的 文件 命名 方案 ，UNIX 和 其 他 一 gh a 

) A : 上 ; 
些 操作 系统 使 用 的 是 多 部 分 组 成 的 路 径 名 。 文件 系 访问 控制 模块 ， ”检查 操作 请 求 是 否 许可 
统 还 负责 控制 对 文件 的 访问 ， 并 根据 用 户 授权 和 其 文件 访问 模块 ， 读 或 写 文件 数据 或 属性 
请 求 的 访问 类 型 ( 读 、 更 新 、 执 行 及 其 他 操作 ) 限 块 模块 : 访问 和 分 配 磁盘 块 


制 对 文件 的 访问 。 设备 模块 . 磁盘 IO 和 缓冲 

元 数据 这 一 术语 是 指 文件 系统 用 于 管理 文件 而 图 8-3 文件 系统 模块 
存储 的 所 有 额外 信息 。 它 包括 文件 属性 ， 目 录 和 其 
他 文件 系统 使 用 的 持久 信息 。 

图 8-3 给 出 了 传统 操作 系统 中 非 分 布 式 文件 系统 的 实现 所 具有 的 一 个 典型 的 层次 模块 结构 。 每 
一 层 只 依赖 其 下 面 一 层 。 分 布 式 文件 服务 的 实现 需要 图 中 所 示 的 所 有 部 件 ， 可 能 需要 附加 组 件 来 
处 理 客户 一 服务 器 通信 、 分 布 式 命名 以 及 文件 定位 。 

文件 系统 操作 ”图 8-4 总 结 了 在 UNIX 系 统 中 应 用 程序 可 用 的 主要 的 文件 操作 。 这 些 是 由 内 核 
实现 的 系统 调用 ， 应 用 程序 员 通 常 通过 像 C 标 准 输入 /输出 库 或 Java 文 件 类 这 样 的 库 进程 来 访问 这 些 
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操作 。 这 里 我 们 给 出 的 原 语 暗示 了 文件 服务 希望 支持 的 操作 ， 并 用 于 与 下 面 介绍 的 文件 服务 接口 
相 比 较 。 


filedes = open(name. mode) 打开 :个 名 字 为 name 的 已 存在 文件 
filedes = creat(name, mode) 用 给 定名 name 创 建 一 个 新 文件 
以 上 两 个 操作 都 给 出 打开 文件 的 文件 描述 符 。 
其 中 ，mode 包括 read、write 或 read、write 两 者 
status = close(filedes) 关闭 已 打开 的 filedes 文 件 
count = read(filedes, buffer, n) 从 被 fledes 引 用 的 文件 中 传输 n 字 节 给 buffer 
count = write(filedes, buffer, n) 从 buffer 传 输 n 字 节 给 被 filedes 引 用 的 文件 


以 上 两 个 操作 都 会 返回 实际 的 传输 字 节 数 并 移动 读 写 指针 
pos = iseek(filedes, offset, whence) ”将 读 写 指针 移动 指定 的 位 移 (根据 whence 决 定 是 
相对 位 移 还 是 绝对 位 移 ) 
status = unlink(name) 从 目录 结构 中 删除 文件 name， 如果 此 文件 没有 其 他 名 字 ， 它 就 被 删除 
status = link(namel, name2) 为 文件 (namel) 添加 新 的 名 字 (name2) 
status = stat(name , buffer) 获得 文件 name 的 文件 属性 ， 并 将 其 放 和 人 buffer 中 





图 8-4 UNIX 文件 系统 操作 


UNIX 操 作 基 于 一 个 程序 模型 ， 在 这 个 程序 模型 中 ， 对 每 个 运行 的 程序 ， 文 件 状态 信息 是 被 存 
储 在 文件 系统 中 的 。 它 包含 一 系列 当前 打开 的 文件 ， 在 每 个 文件 上 有 一 个 读 -- 写 指针 ， 它 用 于 为 下 
一 次 读 或 写 操作 指示 文件 位 置 。 

文件 系统 还 负责 文件 的 访问 控制 。 在 UNIX 这 样 的 本 地 文件 系统 中 ， 当 文件 被 打开 时 ， 系 统 就 
会 进行 访问 控制 。 它 在 访问 控制 表 中 检查 用 户 的 权限 ， 并 将 权限 与 在 open 系 统 调 用 中 请 求 访问 
的 模式 做 比较 。 如 果 权 限 与 其 模式 匹配 ， 文 件 就 被 打开 ， 同 时 该 模式 被 记录 在 打开 文件 的 状态 
信息 中 。 


8.1.2 分 布 式 文件 系统 的 需求 


在 分 布 式 文件 系统 的 早期 开发 过 程 中 ， 发 现 了 许多 分 布 式 服务 设计 的 需求 和 潜在 的 缺陷 。 最 
初 ， 分 布 式 文件 系统 只 提供 访问 透明 性 和 位 置 透明 性 ， 然 而 在 后 续 的 开发 过 程 中 ， 出 现 了 性 能 、 
可 伸缩 性 、 并 发 控制 、 容 错 和 安全 需求 ， 并 且 这 些 需求 在 开发 中 都 得 到 了 满足 。 我 们 将 在 后 面 的 
小 节 中 讨论 这 些 需求 以 及 相关 的 需求 。 

透明 性 ”在 企业 内 部 网 上 ， 文 件 服务 通常 都 是 负载 最 重 的 服务 ， 因 此 它 的 功能 和 性 能 非常 关 
键 。 文 件 服务 的 设计 应 该 满足 1.4.7 节 定义 的 分 布 式 系统 的 透明 性 需求 ， 其 设计 还 必须 平衡 灵活 性 、 
可 伸缩 性 、 软 件 的 复杂 性 和 性 能 之 间 的 关系 。 下 列 透 明 性 是 当前 文件 服务 能 够 部 分 解决 或 完全 解 
决 的 : 

访问 得 明 性 : 客户 程序 应 该 不 了 解 文件 的 分 布 性 。 用 户 通过 一 组 文件 操作 来 访问 本 地 或 远程 
文件 。 操 作 本 地 文件 的 程序 在 不 做 修改 的 情况 下 也 应 该 能 访问 远程 文件 。 

位 置 造 明 性 : 客户 程序 应 该 使 用 单一 的 文件 命名 空间 。 在 不 改变 路 径 名 的 情况 下 ， 多 个 文件 
或 文件 组 应 该 可 以 被 重 定位 ， 同 时 用 户 程序 在 任 一 时 刻 执行 时 都 使 用 同样 的 名 字 空间 。 

移动 黎明 性 当 文件 被 移动 时 ， 客 户 程 序 和 客户 节点 上 的 系统 管理 表 都 不 必 进 行 修改 。 它 们 
支持 文件 的 移动 性 一 一 多 个 文件 或 文件 卷 可 以 被 系统 管理 者 移动 或 自动 移动 。 

性 能 透明 性 : 当 服 务 负载 在 一 个 特定 范围 内 变化 时 ， 客 户 程序 应 该 可 以 得 到 满意 的 性 能 。 

伸缩 透明 性 : 文件 服务 可 以 不 断 扩充 ， 以 满足 负载 和 网 络 规模 增长 的 需要 。 

并 发 文件 更 新 客户 改变 文件 的 操作 不 应 该 影响 其 他 客户 同时 进行 的 访问 和 改变 同一 文件 的 
操作 。 这 就 是 众所周知 的 并 发 控制 问题 ， 第 13 章 会 对 此 做 详细 讨论 。 许 多 应 用 程序 都 需要 对 共享 
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信息 的 访问 进行 并 发 控制 ， 其 实现 技术 也 为 大 家 所 熟知 ， 但 其 开销 比较 大 。 当 前 大 多 数 文件 服务 
都 遵循 现代 UNIX 标 准 ， 提 供 建议 性 的 或 强制 性 的 文件 级 或 记录 级 加 锁 。 

文件 复制 ”在 支持 文件 复制 的 文件 服务 中 ， 一 个 文件 可 以 表示 为 其 内 容 在 不 同位 置 的 多 个 拷 
由 。 这 样 做 有 两 个 好 处 一 一 它 人 允许 当 客户 端 访问 相同 的 文件 集合 时 多 个 服务 器 分 担 文件 服务 的 负 
载 ， 改 善 服务 的 伸缩 性 ， 同 时 改善 容错 性 能 ， 因 为 当 一 个 文件 损坏 时 ， 客 户 可 以 访问 另 一 台 具 有 
此 文件 拷贝 的 服务 器 。 少 数 文件 服务 支持 完全 的 复制 ， 但 大 部 分 文件 服务 支持 文件 缓存 或 本 地 部 
分 文件 复制 (这 是 一 种 受 限 的 复制 形式 )。 关 于 数据 复制 的 讨论 详 见 第 15 章 ， 其 中 包括 Coda 复 制 文 
件 服务 的 描述 。 

硬件 和 操作 系统 异 构 性 ”文件 服务 的 接口 必须 有 明确 的 定义 ， 这 样 在 不 同 的 操作 系统 和 计算 
机 上 可 以 实现 同样 的 客户 和 服务 器 软件 。 这 一 需求 是 开放 性 的 一 个 重要 方面 。 

容错 ”在 分 布 式 系统 中 ， 文 件 服务 的 中 心 角 色 决 定 了 在 客户 和 服务 器 出 现 故障 时 服务 能 继续 
使 用 是 非常 重要 的 。 幸 运 的 是 ， 为 一 个 简单 的 服务 器 设计 一 个 中 等 的 容错 设计 是 比较 容易 的 。 为 
了 应 付 暂时 的 通信 故障 ， 容 错 设计 可 以 基于 最 多 一 次 的 调用 语义 (参见 第 5.2.4 节 ) 。 而 在 按 肝 等 操 
作 设计 的 服务 器 协议 中 ， 容 错 设 计 可 以 使 用 更 简单 的 最 少 一 次 语义 ， 以 保证 重复 的 请 求 不 会 导致 
对 文件 的 无 效 更 新 。 服 务 器 可 以 是 无 状态 的 ， 这 样 它 可 以 重新 启动 ， 而 且 服 务 在 发 生 故障 后 被 恢 
复 时 ， 它 不 需要 恢复 以 前 的 状态 。 文 件 复制 可 以 实现 对 连接 中 断 和 服务 器 故障 的 容错 ， 相 比 前 面 
的 情况 而 言 这 个 目标 很 难 达到 ， 我 们 会 在 第 15 章 讨论 这 一 问题 。 

一 致 性 像 UNIX 文 件 系统 这 样 的 传统 的 文件 系统 提供 的 是 单个 捞 贝 更 新 的 语义 。 它 提供 了 一 
个 对 文件 进行 并 发 访问 的 模型 ， 即 当 多 个 进程 并 发 访问 或 修改 文件 时 ， 它 们 只 看 到 仅 有 一 个 文件 
拷贝 存在 。 当 文件 在 不 同 的 地 点 被 复制 或 被 缓存 时 ， 一 个 拷贝 的 被 修改 之 处 要 传播 到 所 有 拷贝 ， 
这 之 间 会 有 不 可 避免 的 延迟 ， 这 种 情况 可 能 会 导致 在 一 定 程序 上 偏离 单个 拷贝 语义 。 

安全 性 几乎 所 有 的 文件 系统 都 提供 基于 访问 控制 列表 的 访问 控制 机 制 。 在 分 布 式 文件 系统 
中 ,客户 的 请 求 需要 加 以 认证 ， 于 是 服务 器 上 的 访问 控制 要 基于 正确 的 用 户 身份 ， 同 时 还 需要 用 
数字 签名 和 对 机 密 数据 加 密 (可 选 ) 机 制 来 保护 请 求 和 应 答 消息 。 我 们 将 在 案例 的 描述 中 讨论 这 
些 需求 的 影响 。 

效率 分 布 式 文件 系统 应 该 提供 至 少 和 传统 的 文件 系统 相同 的 能 力 ， 并 且 它 还 应 满足 一 定 的 性 
能 要 求 。Birrell 和 Needham[1980] 对 他 们 的 Cambridge 文 件 服务 器 (CFS) 的 设计 目标 的 描述 如 下 ; 

为 了 共享 一 个 兄 责 的 资源 (也 就 是 硬盘 ) ， 我 们 希望 拥有 一 个 简单 、 低 级 别 的 文件 服 

务 器 。 这 样 ， 我 们 就 可 以 自由 地 设计 适合 特定 客户 的 文件 系统 ， 但 同时 我 们 也 希望 拥有 

可 以 被 客户 共享 的 高 级 别 的 系统 。 

磁盘 存储 费用 的 降低 减弱 了 效率 的 重要 性 ， 但 不 同 客户 仍然 有 不 同 需求 ， 并 且 它 能 用 上 述 的 
模块 化 体系 结构 加 以 解决 。 

实现 文件 服务 的 技术 是 分 布 式 系统 设计 中 的 一 个 重要 部 分 。 分 布 式 文件 系统 应 提供 在 性 能 和 
可 靠 性 方面 能 和 本 地 文件 系统 比拟 的 、 甚 至 更 好 的 服务 。 它 必须 便于 管理 ， 能 提供 相应 的 操作 和 
工具 ， 使 得 系统 管理 员 能 方便 地 安装 和 操作 系统 。 
8.1.3 实例 研究 

我 们 已 经 为 文件 服务 构造 了 一 个 抽象 模型 ， 这 个 模型 与 实现 机 制 分 离 并 且 比 较 简单 ， 我 们 将 它 
作为 介绍 性 的 例子 。 我 们 将 详细 地 描述 Sun 网 络 文件 系统 ， 描 述 我 们 更 为 简单 的 抽象 模型 ， 以 阐明 它 
的 体系 结构 。 然 后 ， 我 们 将 介绍 Andrew 文 件 系统 ， 它 采用 不 同 的 方法 获得 可 伸缩 性 并 保持 一 致 性 。 

文件 服务 体系 结构 ”这 一 抽象 体系 结构 模型 同时 支持 NFS 和 AFS。 它 基于 三 个 模块 间 的 责任 划 


分 一 一 为 应 用 程序 模拟 传统 文件 系统 接口 的 客户 模块 、 为 客户 提供 目录 和 文件 操作 的 服务 器 模块 。 
这 种 体系 结构 设计 启用 了 服务 器 模块 的 无 状态 实现 。 
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SUN NFS Sun Microsystem 的 网 络 文件 系统 (NFS) 自 1985 年 面世 以 后 ， 已 广泛 应 用 于 工业 
界 和 学 术 界 。1984 年 ，Sun Microsystems 的 工作 人 员 承 担 了 NFS 的 设计 和 开发 [Sandberg et al. 
1985，Sandberg 1987，Callaghan 1999]。 尽 管 当时 已 经 开发 出 一 些 分 布 式 文件 服务 ， 并 且 已 应 用 
于 学 校 和 研究 性 实验 室 ， 但 NFS 是 第 一 个 设计 成 产品 的 文件 服务 。NFS 的 设计 和 实现 在 技术 上 和 商 
业 上 获得 了 巨大 成 功 。 

为 了 将 NFS 推 广 为 一 个 标准 ，Sun 公 司 公开 了 NFS 主 要 的 接口 定义 [Sun 1989]， 人 允许 其 他 供 货 
商 来 产生 实现 ， 同 时 通过 授权 的 方式 允许 其 他 计算 机 供 货 商 获得 参考 实现 的 源 代码 。 现 在 ，NFS 被 
许多 供 货 商 支持 ， 同 时 定义 在 RFC 1813[Callaghan et al. 1995] 的 NFS 协 议 (版 本 3) 成 为 一 个 因 特 
网 标准 。Callaghan 关 于 NFS 的 书 [Callaghan 1999] 是 关于 NFS 的 设计 和 开发 以 及 相关 问题 的 一 个 极 
好 的 参考 。 

NFS 为 运行 在 UNIX 和 其 他 系统 上 的 客户 程序 提供 对 远程 文件 的 透明 访问 。 客 户 一 服务 器 的 关 
系 是 对 称 的 : NFS 网 络 上 的 每 一 台 计算 机 既 可 以 是 客户 ， 也 可 以 是 服务 器 ， 同 时 在 每 一 台 机 器 上 的 
文件 可 以 被 其 他 机 器 远程 访问 。 当 输出 自己 的 文件 时 ， 计 算 机 扮演 的 是 服务 器 的 角色 ， 当 访问 其 
他 机 器 的 文件 时 ， 它 扮演 的 是 客户 的 角色 。 但 在 实际 环境 中 ， 通 常会 将 某 些 配置 较 高 的 机 器 作为 
专用 服务 器 ， 而 将 其 他 机 器 作为 工作 站 。 

NFS 的 一 个 重要 目标 是 对 硬件 和 操作 系统 异 构 性 实现 高 层 支 持 。 NFS 的 设计 是 独立 于 操作 系统 
的 ,客户 和 服务 器 几乎 可 以 在 当前 所 有 的 操作 系统 平台 上 实现 ， 包 括 各 种 版 本 的 Windows、Mac 
OS、Linux 和 几乎 所 有 其 他 版 本 的 UNIX。 有 一 些 供 货 商 在 高 性 能 多 处 理 器 主机 上 开发 了 NFS 实 现 ， 
它们 被 广泛 用 于 满足 具有 许多 并 发 用 户 的 企业 内 部 网 的 存储 需要 。 

Andrew 文 件 系统 ”Andrew 文件 系统 是 Carnegie Mellon 大 学 (CMU) 开发 的 一 个 分 布 式 计算 
环境 ， 它 被 作为 校园 计算 和 信息 系统 [Morris et al. 1986]。Andrew 文 件 系 统 ( 以 后 简称 为 AFS) 的 
设计 反映 了 通过 减少 客户 一 服务 器 通信 来 支持 大 规模 共享 信息 这 一 意图 。 它 通过 在 客户 和 服务 器 之 
间 传 输 整个 文件 ， 并 在 客户 机 中 缓存 文件 直到 服务 器 收 到 一 个 更 新 的 版 本 的 方式 来 实现 这 一 意图 。 
在 介绍 过 Satyanarayanan[1989a，1989b] 之 后 ， 我 们 会 介绍 AFS-2， 这 是 AFS 第 一 个 “产品 ”级 的 实 
现 。 关 于 AFS 更 多 最 新 的 介绍 可 以 在 Campbell[1997] 和 [Linux AFS] 中 找到 。 

AFS 最 初 在 CMU 运 行 BSD UNIX 和 Mach 操 作 系统 的 工作 站 和 服务 器 网 络 中 实现 ， 然 后 ， 它 的 
商业 和 公用 领域 版 本 也 相继 实现 。 最 近 ， 在 Linux 操 作 系 统 [Linux AFS] 上 也 可 以 使 用 AFS 的 公用 领 
域 实现 。AFS 已 成 为 开放 软件 基金 会 (OSF) 的 分 布 式 计算 环境 (DCE) [www.opengroup.org] 中 
的 DCE/DFS 文 件 系 统 的 基础 。DCE/DFS 的 设计 在 一 些 重要 方面 超越 了 AFS， 我 们 将 在 8.5 节 介绍 这 
一 点 。 


8.2 文件 服务 体系 结构 


为 了 清晰 地 划分 文件 访问 问题 的 关注 点 ， 我 们 将 文件 系统 的 结构 化 分 成 三 个 组 件 一 一 平面 文 
侍 服 务 、 目 录 服 务 和 客户 端 模块 。 图 8-5 显 示 了 相关 的 模块 以 及 它们 之 间 的 关系 。 平 面 文件 服务 和 
目录 服务 将 接口 开放 ， 供 客户 程序 使 用 ， 它 们 同时 和 RPC 接 口 一 起 提供 了 访问 文件 的 操作 。 客 户 
模块 提供 了 同 传统 文件 系统 相似 的 关于 文件 操作 的 一 个 程序 接口 。 设 计 的 开放 性 体现 在 可 以 用 不 
同 的 客户 模块 实现 不 同 的 程序 接口 ， 从 而 模拟 不 同 操作 系统 的 文件 操作 并 根据 不 同 的 客户 和 服务 
器 硬件 配置 优化 性 能 。 

模块 之 间 的 职责 划分 如 下 ， 

平面 文件 服务 ”平面 文件 服务 注重 实现 在 文件 内 容 上 的 操作 。 唯 一 文件 标识 符 (UFID) 用 于 
在 所 有 平面 文件 服务 操作 的 请 求 中 标识 文件 。 文 件 服务 和 目录 服务 的 职责 划分 是 基于 UFID 的 使 用 。 
UFIP 是 一 长 串 比特 ， 每 个 文件 的 UFID 在 分 布 式 系统 的 所 有 文件 中 是 唯一 的 。 当 平面 文件 服务 接收 
到 一 个 创建 文件 的 请 求 时 ， 它 生成 一 个 新 的 UFID 并 将 此 UFID 返 回 给 请 求 者 。 


客户 端 计算 机 服务 器 计算 机 










EE=—=3 E== 


图 8-5 文件 服务 体系 结构 


目录 服务 ”目录 服务 提供 文件 的 文本 名 字 到 UFID 的 映射 。 客 户 可 以 通过 对 目录 服务 引用 文本 
名 字 来 获得 文件 的 UFID。 目 录 服 务 提供 生成 目录 、 为 目录 增加 新 的 文件 名 以 及 从 目录 中 获得 UFID 
所 必需 的 功能 。 它 是 平面 文件 服务 的 客户 ， 它 的 目录 文件 存储 在 平面 文件 服务 提供 的 文件 中 。 当 
采用 UNIX 那 样 的 层次 化 文件 命名 方案 时 ， 目 录 包 含 对 其 他 目录 的 引用 。 

客户 模块 ”客户 模块 运行 在 客户 计算 机 上 ， 它 在 一 个 应 用 程序 接口 下 集成 和 扩展 了 平面 文件 
服务 和 目录 文件 服务 的 操作 ， 该 程序 接口 可 供 客户 计算 机 上 的 用 户 级 程序 使 用 。 例 如 ， 在 UNIX 主 
机 上 ， 一 个 客户 模块 可 以 模拟 UNIX 所 有 文件 操作 的 集合 ， 并 通过 向 目录 服务 迭代 地 发 出 请 求 来 解 
释 UNIX 的 文件 名 的 各 个 部 分 ， 从 而 模拟 UNIX 文 件 操作 集 。 客 户 模块 也 拥有 平面 文件 服务 器 和 目 
录 服 务 器 进程 的 网 络 位 置信 息 。 最 后 ， 客 户 模块 还 可 以 通过 在 客户 端 缓存 最 近 使 用 的 文件 块 的 方 
式 来 获得 满意 的 性 能 。 

平面 文件 服务 接口 ”图 8-6 包 含 对 平面 文件 服务 的 接口 定义 。 这 是 客户 模块 使 用 的 RPC 接 口 ， 
它 并 不 是 直接 被 用 户 级 程序 使 用 。 当 FileId 所 指 的 文件 不 在 处 理 请 求 的 服务 器 中 ， 或 访问 权限 不 允 
许 对 此 文件 进行 请 求 的 操作 时 ，FileId 是 无 效 的 。 如 果 Fileld 参 数 包含 无 效 的 UFID 或 用 户 没有 足够 
的 访问 权限 ， 那 么 除了 Create 接 口 之 外 的 所 有 接口 上 的 过 程 都 会 抛 出 异常 。 为 清晰 起 见 ， 这 些 异 常 
从 定义 中 省 略 了 。 


Read(Fileld, i, n)— Data 如 果 1<i<Length(File)， 则 从 文件 中 读 取 从 i 斋 开 始 的 至 多 有 
一 抛 出 BadPosition n 项 的 序列 ， 并 在 Data 中 返回 结果 

Write( Fileld, i, Data) 如 果 1<i<Length(File)+1， 则 从 文件 的 i 项 开始 

一 抛 出 BadPosition 写 入 Data 序 列 ， 在 需要 时 扩展 文件 


Create()—Fileld 生成 一 个 长 度 为 0 的 新 文件 ， 并 为 其 指定 一 个 UFID 
Delete(Fileld) 从 文件 存储 中 删除 一 个 文件 

GetAttributes(FileId) 一 Attr ”返回 指定 文件 的 文件 属性 

SetAttributes(Fileld, Attr) 设置 文件 属性 (图 8-3 中 没有 阴影 的 那些 属性 ) 





图 8-6 平面 文件 服务 操作 


读 和 写 是 最 重要 的 文件 操作 ，Read 和 Write 操作 都 需要 一 个 参数 ;来 指定 文件 的 读 写 位 置 。read 
操作 从 指定 文件 的 第 i 项 开始 顺序 地 拷贝 个 数据 项 到 Data 中 ， 然 后 将 Data 返 回 给 客户 。write 操 作 搂 
贝 Data 中 的 数据 序列 到 指定 文件 的 第 ;项 位 置 ， 它 会 替换 原 有 文件 在 相应 位 置 的 内 容 ， 并 在 需要 的 
时 候 扩 展 文件 。 

Create 操 作 创建 一 个 新 的 空 文件 并 返回 生成 的 UFID 。Delete 操 作 删 除 指定 的 文件 。 

GetAttributes 和 SetAttributes 操 作 使 用 户 能 访问 属性 记录 。GetAttributes 操 作 通 常 对 每 个 能 读 文 
件 的 客户 都 可 用 。 对 SetAttributes 操 作 的 访问 通常 被 限制 在 提供 访问 文件 的 目录 服务 中 。 属 性 记录 
的 长 度 和 时 间 惟 的 值 不 会 受 SetAttributes 操 作 的 影响 ， 它 们 由 平面 文件 服务 单独 管理 。 

与 UNIX 的 比较 : 平面 文件 服务 接口 和 UNIX 的 文件 系统 原 语 在 功能 上 等 价 。 用 下 一 节 介 绍 的 
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平面 文件 服务 和 目录 服务 操作 来 构建 模拟 UNIX 系 统 调用 的 客户 模块 是 很 容易 的 。 

与 UNIX 接 口 相 比 ， 平 面 文件 服务 没有 open 和 close 操 作 一 一 通过 引用 合适 的 UFID 可 以 立刻 访问 文 
件 。 在 我 们 的 接口 中 ，Read 和 Write 请 求 包括 指明 文件 中 起 始 读 写 点 的 参数 ， 而 在 与 之 等 价 的 UNIX 操 
作 中 则 设 有 。 在 UNIX 中 ， 每 一 个 Read 或 Write 操作 在 读 -- 写 指针 指向 的 当前 位 置 开 始 操作 ， 并 且 读 一 
写 指针 在 read 或 write 操作 传输 完 数据 后 会 自动 前 移 。seek 操 作用 于 使 读 写 指针 显 式 地 重 定位 。 

平面 文件 服务 的 接口 与 UNIX 文 件 系统 接口 的 差别 主要 对 容错 有 一 些 影响 : 

可 重复 的 操作 : 除了 Create 操 作 之 外 ， 其 他 操作 都 是 坦 等 级 的 ， 即 允许 使 用 至 少 -次 的 RPC 语 
义 ， 客 户 可 能 在 没有 收 到 应 答 的 情况 下 重复 调用 。 重 复 执行 Create 操 作 会 每 次 生成 一 个 新 的 文件 。 

无 状态 服务 器 : 接口 适合 用 无 状态 服务 器 实现 。 无 状态 服务 器 可 以 发 生 故 障 后 重启 ， 它 可 以 
在 不 需要 客户 或 服务 器 恢复 任何 状态 的 情况 下 继续 操作 。 

UNIX 文 件 操作 既 不 是 器 等 级 的 ， 也 与 无 状态 实现 的 需求 不 一 致 。 当 文件 被 打开 时 ，UNIX 文 
件 系 统 生成 读 一 写 指针 ， 并 且 同 访问 控制 检查 的 结果 一 起 维持 到 文件 关闭 为 止 。UNIX 的 read 或 
write 操 作 不 是 知 等 级 的 。 如 果 一 个 操作 意外 重复 时 ， 读 一 写 指 针 的 自动 前 移 会 导致 在 重复 的 操作 中 
访问 文件 的 不 同位 置 。 读 -- 写 指针 是 一 个 隐藏 的 、 与 客户 相关 的 状态 变量 。 为 了 在 文件 服务 中 模仿 
它 ， 系 统 应 提供 open 和 close 操 作 ， 并 且 必 须 在 相关 文件 打开 后 就 一 直 维持 读 - 写 指针 的 值 。 通 过 消 
除 读 - 写 指针 ， 我 们 消除 了 大 多 数 文件 服务 中 代表 客户 保留 状态 信息 的 需要 。 

访问 控制 ”在 UNIX 文 件 系 统 中 ， 系 统 会 根据 在 open 调 用 中 请 求 的 访问 ( 读 或 写 ) 模式 来 检查 
用 户 的 访问 权限 〈 图 8-4 给 出 了 UNIX 文 件 系统 的 API) ， 并 且 只 有 在 用 户 拥有 相应 的 权限 时 ， 才 能 
打开 文件 。 访 问 权限 检查 中 使 用 的 用 户 标识 (UID) 是 用 户 认证 登录 的 结果 ， 并 且 在 非 分 布 式 的 实 
现 中 ， 它 是 不 能 被 修改 的 。 访 问 权 限 会 保持 到 文件 关闭 为 止 ， 并 且 在 同一 文件 上 进行 后 续 操作 时 ， 
系统 不 需要 进行 进一步 检查 。 

在 分 布 式 的 实现 中 ， 访 问 权限 检查 必须 在 服务 器 上 进行 ， 这 是 因为 服务 器 RPC 接 口 是 访 问 文 
件 的 一 个 无 保护 的 点 。 用 户 标识 必须 在 请 求 中 传输 ， 并 且 服 务 器 容易 被 伪造 的 标识 欺骗 。 更 严重 
的 是 ， 如 果 访 问 权限 检查 的 结果 被 保留 在 服务 器 上 并 在 今后 的 访问 中 使 用 时 ， 服 务 器 就 不 再 是 无 
状态 的 。 有 两 种 方法 可 以 解决 后 一 个 问题 : 

* 当 文 件 名 被 转化 为 UFID 时 ， 系 统 执行 一 次 访问 检查 ， 同 时 其 结果 以 权能 的 形式 编码 ( 见 第 

7.2.4 节 )， 它 作为 以 后 一 系列 请 求 的 访问 许可 返回 给 客户 。 

“ 在 每 一 次 客户 请 求 时 ， 都 要 提交 用 户 标识 ， 并 且 在 每 一 次 文件 操作 时 ， 服 务 器 都 进行 访问 

检查 。 

这 两 种 方法 都 支持 把 服务 器 实现 成 无 状态 的 ， 并 且 它 们 都 已 经 应 用 在 分 布 式 系统 中 了 。 第 一 
种 方法 更 常用 一 些 ，NFS 和 AFS 都 使 用 这 种 方法 。 两 种 方法 都 没有 解决 关于 伪造 用 户 标识 的 安全 问 
题 。 这 个 问题 可 以 利用 第 7 章 介绍 的 数字 签名 解决 。Kerberos 是 一 种 有 效 的 认证 方案 ， 它 已 经 应 用 
于 NFS 和 AFS 中 。 

在 我 们 的 抽象 模型 中 ， 我 们 没有 说 明 采 用 哪 种 方法 实现 访问 控制 。 用 户 标识 可 以 作为 一 个 隐 
式 参 数 传递 ， 并 且 在 需要 的 时 候 使 用 它 。 

目录 服务 接口 图 8-7 包 含 目录 服务 的 RPC 接 口 的 定义 。 目 录 服 务 的 主要 目的 是 提供 将 文本 名 
字 翻 译 为 UFID 的 服务 。 为 了 做 到 这 一 点 ， 它 保留 了 一 个 包含 文件 名 到 UFID 映 射 的 目录 文件 。 每 一 
个 目录 作为 具有 UFID 的 普通 文件 加 以 存储 。 因 此 ， 目 录 服 务 是 文件 服务 的 一 个 客户 。 

我 们 只 定义 了 在 单个 目录 上 的 操作 。 在 每 一 个 操作 中 ， 系 统 需要 包含 目录 文件 的 UFID (在 Dir 
参数 中 )。 基 本 目录 服务 中 的 Lookup 操 作 执行 Name 一 UFID 的 转换 。 它 可 以 供 其 他 服务 或 客户 模块 
使 用 以 完成 更 复杂 的 映射 ， 如 在 UNIX 中 的 层次 化 名 字 解 释 。 像 以 前 一 样 ， 定 义 中 省 略 了 访问 权限 
不 足 可 能 引起 的 异常 。 





分 布 式 文 件 天 统 223 











Lookup(Dir, Name) —Fileld 在 里 法 中 找到 文本 名 宁 ， 并 返回 相关 的 UFID。 如 果 在 日 录 中 没有 
一 抛 出 NorFound 找到 Name， 使 抛 出 异常 

AddName(Dir, Name. Fileld) 如 果 日 洪 中 没有 Name， 则 将 (Name. File) 加 入 到 自 录 中 ， 并 更 新 
一 抛 出 NameDuplicare 其 文件 属性 记录 。 如 果 存 目录 中 已 经 有 Name， 便 抛 出 异常 
UnName(Dir Name) 如 果 在 目录 中 已 经 有 Name， 则 包含 Name 的 条 月 被 删除 。 如 果 在 目录 
一 抛 出 NotFound 中 没有 找到 Name， 便 抛 出 异常 


GetNames(Dir,Pattern) 一 NameSeq 返回 在 目录 中 所 有 与 正则 表达 式 Pattern 匹 配 的 文本 名 字 








图 8-7 目录 服务 操作 


改变 目录 可 采用 两 种 操作 : AddName 和 UnName。AddName 给 目录 增加 一 个 条 目 ， 并 且 在 文 
件 的 属性 记录 中 将 引用 计数 字段 增 1。 

UnName 从 目录 中 删除 一 个 条 目 并 将 引用 计数 字段 减 -。 当 引用 计数 字段 减少 到 零 的 时 候 ， 文 
件 被 删除 。GetName 使 客户 能 够 检查 目录 内 容 ， 同 时 它 还 实现 像 UNIX shell 中 的 对 文件 名 的 模式 匹 
配 操 作 。 它 返回 给 定 目录 中 存储 的 全 部 或 部 分 名 字 。 在 此 操作 中 ， 系 统 通过 对 客户 提供 的 正则 表 
达 式 进行 模式 匹配 来 寻找 文件 名 。 

GetName 操 作 提 供 的 模式 匹配 功能 使 得 用 户 能 够 通过 一 个 文件 名 中 的 部 分 字符 的 规约 来 查找 
一 个 或 多 个 文件 。 一 个 正则 表达 式 是 一 种 由 子 字符 串 和 标识 可 变 字 符 ， 以 及 重复 出 现 的 字符 / 子 串 
的 符号 组 成 的 字符 串 表 达 式 。 

层次 文件 系统 ”类 似 UNIX 提 供 的 层次 文件 系统 由 组 织 成 树 型 结构 的 目录 组 成 。 每 一 个 目录 包 
含 文件 和 其 他 可 以 从 此 目录 访问 的 目录 的 名 字 。 可 以 使 用 路 径 名 来 访问 任 一 文件 或 目录 一 一 路 径 
名 是 代表 树 中 一 条 路 径 的 多 部 分 名 字 。 树 的 根 有 -- 个 特定 的 名 字 ， 并 且 每 一 个 在 目录 中 的 文件 或 
目录 都 有 名 字 。UNIX 的 文件 命名 方案 不 完全 是 层次 性 的 一 一 个 文件 可 能 有 多 个 名 字 ， 它 们 可 以 
在 相同 或 不 同 的 目录 中 。 这 是 用 link 操 作 实现 的 ， 该 操作 可 以 为 指定 目录 中 的 文件 增加 新 的 名 字 ， 

像 UNIX 这 样 的 文件 命名 系统 可 以 由 使 用 了 平面 文件 服务 和 目录 服务 的 客户 模块 来 实现 。 在 目 
录 的 树 型 结构 中 ， 文 件 在 叶 节 点 上 ， 而 目录 在 树 的 其 他 节点 上 。 树 的 根 是 一 个 具有 “众所周知 ”的 
UFID 的 目录 。 可 以 使 用 AddName 操 作 和 属性 记录 中 的 引用 计数 字段 来 为 同一 个 文件 取 多 个 名 字 。 

客户 模块 提供 一 个 函数 ， 用 于 实现 对 给 定 路 径 的 文件 查找 其 UFID 的 功能 。 该 函数 从 根 开 始 解 
析 路 径 名 ， 通 过 使 用 Lookup 操 作 获 得 路 径 上 每 一 个 目录 的 UFID。 

在 层次 化 目录 服务 中 ， 文 件 属性 应 该 包括 一 个 区 别 普通 文件 和 目录 的 类 型 字段 。 可 以 根据 它 
沿 着 路 径 确 定名 字 的 各 个 部 分 (除了 最 后 一 个 部 分 ) 都 是 目录 。 

文件 组 ”文件 组 是 在 一 个 位 于 给 定 服务 器 上 的 文件 集合 。 一 个 服务 器 可 能 包含 数 个 文件 组 ， 
文件 组 可 以 在 服务 器 之 间 移 动 ， 但 文件 不 能 改变 它 所 属 的 组 。 在 UNIX 和 大 多 数 其 他 操作 系统 中 使 
用 的 是 一 个 相似 的 构造 一 一 文件 系统 。 文 件 组 最 初 被 用 来 支持 在 计算 机 间 移 动 存储 在 可 移动 介质 
上 的 文件 集合 。 在 分 布 式 文件 服务 中 ， 文 件 组 支持 将 文件 以 更 大 的 逻辑 单位 分 配 在 文件 服务 器 上 ， 
同时 它 还 支持 用 存储 在 几 个 服务 器 上 的 文件 共同 实现 文件 服务 。 在 支持 文件 组 的 分 布 式 文件 系统 
中 ，UFID 包 括 一 个 文件 组 标识 符 ， 它 能 使 每 个 客户 计算 机 上 的 客户 模块 决定 是 否 向 包含 相应 文件 
组 的 服务 器 分 发 请 求 。 

在 分 布 式 系 统 中 ,文件 组 标识 符 必须 唯一 。 因 为 文件 组 可 以 被 移动 ， 同 时 最 初 分 离 的 分 布 式 
系统 也 可 以 合并 成 一 个 系统 ， 所 以 保证 文件 组 在 给 定 的 系统 中 唯一 的 方法 只 能 是 ， 用 一 个 确保 全 
局 唯一 性 的 算法 生成 文件 组 标识 符 。 例 如 ， 创 建新 的 文件 组 时 ， 可 由 创建 新 组 的 主机 的 32 位 的 IP 
地 址 和 一 个 根据 日 期 生成 的 16 位 整数 拼接 而 成 的 48 位 整数 来 形成 唯一 标识 符 。 

32 位 16 位 
文件 组 标识 符 : [iP 地 址 | ”日 期 ] 
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需要 注意 的 是 ，IP 地 址 不 能 用 来 定位 文件 组 ， 因 为 它 可 以 被 移动 到 其 他 服务 器 上 。 文 件 服务 
应 该 维护 一 个 组 标识 和 服务 器 之 间 的 映射 。 


8.3 实例 研究 ;SUN 网络 文件 系统 


图 8-8 给 出 了 Sun NFS 的 体系 结构 。 它 遵循 前 面 介 绍 的 抽象 模型 。 所 有 的 NFS 实 现 都 支持 NFS 协 
议 一 一 为 客户 提供 操作 远程 文件 存储 的 远程 过 程 调用 集合 。NFS 协 议 与 操作 系统 无 关 ， 但 是 它 最 初 
是 为 在 UNIX 系 统 网 络 中 使 用 而 开发 出 的 ， 我 们 将 描述 NFS 协 议 (版 本 3) 的 UNIX 实 现 。 


客户 计算 机 服务 器 计算 机 





”协议 


图 8-8 NFS 体 系 结构 


NFS 服 务 器 模块 驻 留 在 每 一 个 作为 NFS 服 务 器 的 计算 机 的 内 核 上 ， 客 户 模 块 将 引用 远程 文件 系 
统 中 的 文件 的 请 求 翻译 为 NFS 协 议 操作 ， 并 将 它 传输 到 保存 相关 文件 系统 的 计算 机 的 NFS 服 务 器 模 
块 上 。 

NFS 客 户 和 服务 器 模块 使 用 远程 过 程 调 用 进行 通信 。5.3.1 节 描述 的 Sun RPC 系 统 是 为 NFS 开 发 
的 。 它 可 以 配置 为 使 用 UDP 或 使 用 TCP，NFS 可 以 兼容 这 两 种 配置 。 该 系统 包括 一 个 端口 映射 服务 ， 
它 能 使 客户 给 定 的 主机 名 字 绑 定 在 服务 上 。RPC 为 NFS 提 供 的 接口 是 开放 的 ， 即 任 一 进程 都 能 向 
NFS 服 务 器 发 送 请 求 ， 如 果 请 求 是 有 效 的 并 且 包 含有 效 的 用 户 凭 证 ， 那 么 系统 会 进行 相应 的 操作 。 
提交 有 用 户 签名 的 凭证 可 以 作为 一 个 可 选 的 安全 机 制 ， 它 就 像 数 据 加 密 一 样 能 提供 私密 性 和 完整 性 。 

虚拟 文件 系统 ”图 8-8 表 明 NFS 能 够 提供 访问 透明 性 : 用 户 程序 可 以 对 本 地 和 远程 文件 发 起 访 
问 而 没有 什么 区 别 。 其 他 分 布 式 文件 系统 也 可 能 支持 UNIX 系 统 调 用 ， 如 果 是 这 样 ， 那 么 它们 可 以 
用 同样 的 方法 集成 起 来 。 

利用 虚拟 文件 系统 (VFS) 模块 可 以 实现 上 述 集 成 ， 该 模块 已 经 加 入 到 UNIX 内 核 中 ， 用 于 区 
分 本 地 和 远程 文件 ， 它 还 用 于 在 NFS 使 用 的 独立 于 UNIX 的 文件 标识 符 和 在 UNIX 及 其 他 文件 系统 
中 使 用 的 内 部 文件 标识 符 之 间 进 行 转换 。 另 外 ，VFS 保 持 对 当前 本 地 和 远程 均 可 用 的 文件 系统 的 跟 
踪 ， 并 且 它 将 每 一 个 请 求 发 送 到 合适 的 本 地 系统 模块 上 (UNIX 文件 系统 ，NFS 客 户 模块 或 其 他 文 
件 系统 中 的 服务 模块 ) 。 

在 NFS 中 使 用 的 文件 标识 符 称 为 文件 句柄 。 文 件 句柄 对 客户 是 不 透明 的 ， 它 包含 服务 器 区 分 
单个 文件 所 需要 的 信息 。 在 NFS 的 UNIX 实 现 中 ,文件 句柄 是 从 文件 的 i 节点 数 得 来 的 ， 它 在 i 节点 
中 加 入 以 下 两 个 附加 域 (UNIX 文 件 的 ;节点 数 是 用 来 在 存储 文件 的 文件 系统 中 标识 和 定位 文件 的 


数值 ) ; 

NFS 采 用 UNIX 的 可 安装 文件 集 系统 作为 上 一 节 定 义 的 文件 组 单元 (注意 术语 上 的 区 别 : 文件 
集 系统 指 的 是 在 一 个 存储 设备 或 分 区 上 保存 的 文件 集合 ， 而 文件 系统 指 的 是 提供 对 文件 访问 的 软 
件 组 件 ) 。 文 件 集 系 统 标识 符 域 是 在 创建 每 一 个 文件 集 系 统 后 为 其 分 配 的 一 个 唯一 的 数值 (在 
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UNIX 实 现 中 ， 它 存储 在 文件 系统 的 超级 块 中 )。 因 为 在 传统 的 UNIX 文 件 系 统 中 ，i 节 点 数 在 文 伴 被 
删除 后 就 由 其 他 文件 重用 ， 因 此 需要 i 节点 产生 数 。 在 VFS 对 UNIX 文 件 系 统 的 扩展 中 ，i 节 点 产生 
数 和 文件 一 起 存储 ， 并 在 每 次 i 节点 被 重用 时 (例如 ， 在 UNIX create 系 统 调用 中 ) 加 一 。 第 一 个 文 
件 句柄 是 在 客户 安装 远程 文件 系统 时 获得 的 。 文 件 句 柄 包含 在 Jookup 、create 和 mkdir 等 操作 ( 见 图 
8-9) 的 结果 中 ， 从 服务 器 传送 给 客户 ， 而 在 所 有 服务 器 操作 的 参数 列表 中 ， 文 件 句 柄 都 是 从 客户 
传 到 服务 器 端 。 











lookup(dirfh, name}—fh, attr 返回 目录 dirfh 中 的 文件 name 的 文件 句柄 和 属性 

create(dirfh, name, attr)}—newfh., attr 在 目录 dirfh 中 创建 具有 attr 属 性 的 新 文件 name， 返 回 新 
文件 的 句柄 和 属性 

remove(dirfh, name)— status 从 目录 dirfh 中 删除 文件 name 

getattr(fh) 一 attr 返回 文件 向 的 文件 属性 (类似 于 UNIX 的 stat 系 统 调用 ) 

setattr(fh., attr) 一 attr 设置 属性 (模式 、 用 户 ID、 组 ID、 文 件 大 小 、 访 问 时 间 
和 文件 的 修改 时 间 )。 将 文件 大 小 设 为 0 意味 着 截断 文件 

read(fh, offset count) 一 attr, data 从 文件 offset 位 置 开 始 读 count 个 字 节 的 数据 ， 也 返回 文 
件 的 最 新 属性 。 

write(fh, offset, count, data) 一 attr 从 文件 offset 位 置 开 始 写 count 个 字 节 的 数据 。 并 返回 写 
完 后 文件 的 属性 。 

rename(dirfh, name, todirfh, toname) — status 将 dirfh 目 录 中 的 文件 name 的 名 字 改 为 todirfh 目 录 中 的 名 
字 toname 

link(newdirfh, newname, fh) 一 status 在 目录 newdirfh 中 创建 -- 个 条 目 newname， 该 条 目 指向 
文件 或 目录 人 

symlink(newdirfh, newname, string) — status 在 目录 newdirfh 中 创建 一 个 类 型 为 symbolic tink、 值 为 
string 的 新 条 目 newname， 服 务 器 并 不 解释 string 而 是 建立 
一 个 符号 链接 文件 保存 该 string 

readlink(fh) 一 String 返回 与 名 标识 的 符号 链接 文件 关联 的 字符 串 

mkdir(dirfh, name, attr) — newfh, attr 创建 一 个 具有 attr 属 性 的 新 目录 name， 并 且 返 回 新 的 文 
件 句 柄 和 属性 

rmdir(dirfh, name) 一 status 从 父 目录 dirfh 中 删除 空 目录 name， 如 果 此 目录 非 空 ， 旭 
操作 失败 

readdir(dirfh, cookie, count) 一 entries 从 目录 dirfh 中 返回 目录 条 目的 至 多 count 字 节 。 每 一 个 条 


目 包 含 一 个 文件 名 、 文 件 句柄 和 一 个 指向 下 - -个 目录 条 和 目 
的 不 透明 指针 ， 该 指针 称 为 cookie。cookie 用 于 在 随后 的 
readdir 操 作 中 从 下 一 个 目录 条 目 中 开始 读 。 如 果 cookie 的 
值 是 0， 则 从 目录 中 第 一 个 条 目 开 始 读 
statfs(fh) 一 fsstats 为 包含 文件 仲 的 文件 系统 返回 文件 系统 信息 (例如 块 大 
LL 小 ,空闲 块 的 数目 等 ) 





图 8-9 NFS 服 务 器 操作 (NFS v3 协 议 ， 简 化 表示 ) 


在 虚拟 文件 系统 层 中 ， 每 一 个 已 安装 的 文件 系统 有 一 个 对 应 的 VFS 结 构 ， 并 且 每 一 个 打开 的 文 
件 有 一 个 v 节 点 。VFS 结 构 将 一 个 远程 文件 系统 与 安装 VFS 的 本 地 目录 联系 起 来 。v 节 点 包含 一 个 指 
示 此 文件 是 本 地 文件 还 是 远程 文件 的 标识 。 如 果 文 件 是 在 本 地 ，v 节 点 包含 对 本 地 文件 索引 的 引用 
(在 UNIX 实 现 中 ， 是 一 个 i 节点 )。 如 果 是 远程 文件 ， 它 包含 远程 文件 的 文件 句 栖 。 

客户 集成 ”在 我 们 的 体系 结构 模型 中 ，NFS 客 户 模块 扮演 的 是 客户 模块 的 角色 ， 提 供 适合 传统 
应 用 程序 使 用 的 接口 。 但 与 我 们 模型 中 的 客户 模块 不 同 的 是 ， 它 精确 模拟 标准 UNIX 文 件 系统 原 语 
的 语义 ， 并 与 UNIX 内 核 集 成 在 一 起 。 它 与 内 核 集 成 到 一 起 ， 而 不 是 以 客户 进程 运行 时 动态 加 载 库 
的 形式 提供 ， 这 样 会 导致 

“ 用 户 程序 可 以 通过 UNIX 系 统 调用 访问 文件 ， 而 不 需要 重新 编译 或 重新 加 载 库 。 





wo 


41 


216 党 8 重 





。 一 个 客户 端 模块 通过 使 用 一 个 共享 缓存 存储 最 近 使 用 的 文件 块 (将 在 下 面 介绍 )， 可 以 为 所 

有 的 用 户 级 进程 服务 。 

。 传 输 给 服务 器 用 于 认证 用 户 ID 的 密 钥 可 以 由 内 核 保存 ， 这 样 可 以 防止 用 户 级 客户 假冒 用 户 。 

在 每 一 台 客 户 机 上 ，NFS 客 户 模 块 与 虚拟 文件 系统 协同 工作 。 它 以 一 种 和 传统 UNIX 文 件 系 统 
相似 的 方式 操作 ， 在 服务 器 和 客户 之 间 传 输 文 件 块 ， 并 在 可 能 的 情况 下 将 文件 块 缓存 在 本 地 的 内 
存 中 。 它 共享 本 地 输入 输出 系统 使 用 的 缓冲 区 。 但 因为 会 有 不 同 主机 上 的 多 个 客户 同时 访问 同一 
远程 文件 的 情况 ， 所 以 出 现 了 新 的 且 重 要 的 缓存 一 致 性 问题 。 

访问 控制 和 认证 “与 传统 UNIX 文 件 系 统 不 同 ，NFS 服 务 器 是 无 状态 的 ， 并 且 不 代表 客户 持续 
打开 文件 。 因 此 在 用 户 发 出 每 一 个 新 的 文件 请 求 时 ， 服 务 器 必须 重新 对 比 用 户 标 识 和 文件 访问 许 
可 属性 来 判断 是 否 允 许 用 户 进行 相应 的 访问 。Sun RPC 协 议 要 求 用 户 在 每 一 次 请 求 时 发 送 用 户 认 证 
信息 例如， 传统 UNIX 的 16 位 用 户 ID 和 组 ID)， 同 时 将 它 与 文件 属性 中 的 访问 许可 进行 对 比 。 图 
8-9 是 对 NFS 协 议 的 简介 ， 其 中 没有 给 出 这 些 附加 参数 ， 它 们 由 RPC 系 统 自动 提供 。 

在 最 简单 的 形式 下 ， 访 问 控制 机 制 有 一 个 安全 漏洞 。 在 每 个 主机 的 已 知 端口 上 ，NFS 服 务 器 提 
供 了 一 个 传统 的 RPC 接 口 ， 而 且 每 个 进程 可 以 作为 一 个 客户 向 服务 器 发 送 访问 和 更 新 文件 的 请 求 。 
客户 可 以 修改 RPC 调 用 以 包括 用 户 ID， 从 而 防止 访 用 户 被 假冒 。 这 一 安全 漏洞 可 以 通过 在 RPC 协 
议 中 使 用 DES 加 密 用 户 认证 信息 的 方法 来 弥补 。 最 近 ，Kerberos 已 经 与 Sun NFS 集 成 起 来 ， 它 为 用 
户 认证 和 安全 性 问题 提供 了 功能 更 强 、 更 全 面 的 解决 方案 ， 我 们 将 在 下 面 介 绍 它 。 

NFS 服 务 器 接口 ”图 8-9 给 出 了 由 NFS 服 务 器 v3 (在 RFC 1813[Callaghan et al. 1995] 中 定义 的 ) 
提供 的 RPC 接 口 的 一 个 简化 表示 。NFS 的 文件 访问 操作 read、write、getattr 和 setattr 几 平等 同 于 我 们 
在 平面 文件 服务 模型 (参见 图 8-6) 中 定义 的 Read、Write、 GetAttributes 和 SetAttributes 操 作 。 在 
图 8-9 中 定义 的 lookup 操 作 和 其 他 大 部 分 目录 操作 与 我 们 在 目录 服务 模型 (参见 图 8-7) 中 定义 的 操 
作 类 似 。 : 

文件 和 目录 操作 和 集成 在 一 个 服务 中 。 用 一 个 create 操 作 就 能 在 目录 中 完成 创建 和 插入 文件 名 的 
操作 ， 该 操作 取 新 文件 的 文件 名 和 目标 目录 的 文件 句柄 作为 参数 。 目 录 上 的 其 他 NFS 操 作 包 括 
create、 remove、 rename、 link、 symlink、 readlink、 mkdir、 rmdir、 readdir 和 statfs。 除 了 readdir 
(提供 了 一 个 读 目录 内 容 的 独立 于 表示 的 方法 ) 和 statfs (给 出 远程 文件 系统 的 状态 信息 ) 之 外 ， 它 
们 都 在 UNIX 中 有 对 应 的 操作 。 

安装 服务 ”运行 在 每 一 个 NFS 服 务 器 上 的 安装 服务 进程 支持 客户 安装 远程 文件 集 系统 的 子 树 。 
每 一 个 服务 器 上 都 有 一 个 具有 已 知名 字 的 文件 (/etc/exports)， 它 包含 用 于 远程 安装 的 本 地 文件 集 
系统 的 名 字 。 每 一 个 文件 集 系统 的 名 字 与 一 个 访问 列表 相 联 关 ， 该 表 用 来 指明 哪些 主机 可 以 安装 
文件 集 系统 。 

客户 使 用 一 个 修改 过 的 UNIX mount 命 令 ， 通 过 在 其 中 指定 远程 主机 名 字 、 远 程 文件 集 系统 的 
目录 路 径 名 和 将 要 安装 的 本 地 名 字 来 请 求 安装 一 个 远程 文件 集 系统 。 远 程 目录 可 以 是 所 请 求 的 远 
程 文件 系统 的 某 个 子 树 ， 使 得 客户 可 以 安装 任何 一 部 分 远程 文件 集 系 统 。 修 改过 的 mount 命 令 使 用 
mount 协 议 与 远程 主机 上 的 安装 服务 进程 进行 通信 。mount 协 议 是 一 种 RPC 协 议 ， 它 以 一 个 给 定 的 
目录 路 径 名 作为 参数 ， 并 返回 指定 目录 的 文件 句柄 ， 其 前 提 是 用 户 拥 有 访问 相关 文件 集 系统 的 权 
限 。 服 务 器 的 位 置 (IP 地 址 和 端口 号 ) 和 远程 目录 的 文件 句柄 被 发 送 到 VFS 层 和 NFS 客 户 。 

图 8-10 描 述 了 一 个 具有 两 个 远程 安装 的 文件 存储 的 客户 。 在 服务 器 1 和 服务 器 2 上 的 文件 集 系 
统 中 的 people 和 users 节 点 被 安装 到 客户 本 地 文件 存储 的 students 和 staff 节 点 上 。 这 意味 着 运行 在 客 
户 痛 的 程序 可 以 通过 使 用 像 /usrstudents/jon 和 /usr/staff/ann 这 样 的 路 径 名 来 访问 服务 器 1 和 服务 器 2 
上 的 文件 。 





注意 : 安装 在 客户 /usr/students 上 的 文件 系统 实际 上 是 位 于 服务 器 1 上 
的 /export/people 下 的 一 个 子 树 ; 安装 在 客户 /usr/stuff 上 的 文件 
系统 实际 上 是 位 于 服务 器 2 上 的 /nfs/users 下 的 一 个 子 树 。 

图 8-10 在 NFS 客 户 端 可 访问 的 本 地 和 远程 文件 系统 


远程 文件 集 系统 可 通过 硬 安 装 和 软 安装 两 种 方式 安装 到 客户 计算 机 上 。 当 一 个 用 户 级 进程 访 
问 硬 安装 的 文件 集 系 统 中 的 一 个 文件 时 ， 进 程 被 挂 起 直到 请 求 完成 。 如 果 远 程 主机 因为 某 种 原因 
无 法 使 用 时 ，NFS 客 户 模块 会 继续 重复 其 请 求 直到 该 要 求 被 满足 为 止 。 这 样 ， 在 服务 器 失效 的 情况 
下 ， 用 户 级 进程 会 一 直 挂 起 直到 服务 器 重启 为 止 ， 然 后 继续 执行 其 工作 ， 就 好 像 没有 出 现 故 障 一 
样 。 但 是 ， 如 果 相 关 文件 集 系 统 是 采用 软 安装 方式 安装 的 ，NFS 客 户 模块 会 在 数 次 重新 请 求 失败 后 
向 用 户 级 进程 返回 一 个 故障 指示 。 构 建 恰当 的 程序 可 以 检测 到 故障 ， 并 能 执行 合适 的 恢复 或 报告 
操作 。 但 许多 UNIX 设 施 和 应 用 并 不 检测 文件 访问 操作 的 故障 ， 当 软 安装 文件 集 系统 失效 时 ， 它 们 
可 能 以 一 种 非 预期 的 方式 执行 。 基 于 此 ， 许 多 情况 下 只 使 用 硬 安装 ， 结 果 造 成 NFS 服 务 器 如 果 在 较 
长 时 段 内 不 可 用 时 ， 程 序 不 能 很 好 地 恢复 。 

路 径 名 翻译 每 次 使 用 open、create 或 stat 系 统 调用 时 ，UNIX 文 件 系 统一 步 步 地 将 多 部 分 文件 
路 径 名 转换 为 i 节点 引用 。 在 NFS 中 ， 路 径 名 不 能 在 服务 器 上 转换 ， 这 是 因为 一 个 名 字 可 能 涉及 客 
户 端 的 一 个 “安装 点 ”一 一 拥有 多 部 分 不 同名 字 的 目录 可 能 驻 留 在 不 同 服务 器 上 的 文件 集 系 统 中 。 
所 以 要 解析 路 径 名 ， 由 客户 以 交互 方式 完成 路 径 名 的 翻译 。 系 统 使 用 数 个 单独 的 对 远程 服务 器 的 
lookup 请 求 将 指向 远程 安装 目录 的 名 字 的 每 一 部 分 翻译 为 文件 句柄 。 

lookup 操 作 在 给 定 的 目录 中 查找 路 径 名 的 一 个 部 分 ， 并 返回 相应 的 文件 句柄 和 文件 属性 。 在 前 
一 步 返回 的 文件 句柄 作为 下 一 个 lookup 的 参数 。 由 于 文件 句柄 对 NFS 客 户 端 代码 是 不 透明 的 ， 所 以 
虚拟 文件 系统 负责 将 文件 句柄 解析 为 本 地 或 远程 目录 ， 如 果 文 件 句 柄 引用 了 本 地 安装 指针 ， 虚 拟 
文件 系统 还 需要 做 一 些 间接 转换 。 路 径 翻 译 的 每 一 步 结果 可 以 被 存储 在 缓存 中 ， 这 样 可 以 利用 对 
文件 和 目录 的 本 地 引用 来 提高 进程 执行 的 效率 。 用 户 和 程序 通常 仅 访问 一 个 或 几 个 目录 中 的 文件 。 

自动 装载 器 ”为 了 在 客户 引用 一 个 “ 空 ”安装 点 时 动态 地 安装 一 个 远程 目录 ， 人 们 在 NFS 的 
UNIX 实 现 中 加 入 了 自动 装载 器 。 最 初 ， 自 动 装载 器 的 实现 是 在 每 一 个 客户 计算 机 上 作为 一 个 用 户 
级 的 UNIX 进 程 来 运行 的 。 此 后 的 版 本 ( 称 为 autofs) 实现 在 Solaris 和 Linux 的 内 核 中 。 这 里 ， 我 们 
介绍 最 初 的 版 本 。 

自动 装载 器 维护 一 张 记录 安装 点 (路径 名 ) 和 对 应 的 一 个 或 多 个 NFS 服 务 器 的 列表 。 在 客户 机 
上 ， 它 就 像 一 个 本 地 的 NFS 服 务 器 一 样 。 当 NFS 客 户 模块 试图 解析 包含 一 个 安装 点 的 路 径 名 时 ， 它 
向 本 地 自动 装载 器 发 出 一 个 lookupO 请 求 ， 由 自动 装载 器 在 它 的 列表 中 定位 所 需 的 文件 集 系统 ， 并 
且 向 表 中 对 应 的 服务 器 发 出 “试探 性 ”的 请 求 。 然 后 通过 正常 的 安装 服务 ， 将 第 一 个 响应 的 服务 
器 上 的 文件 集 系统 安装 到 客户 端 上 。 被 安装 的 文件 集 系统 通过 符号 链接 连接 在 安装 点 上 ， 这 样 客 
户 下 一 次 访问 时 就 不 需要 再 向 自动 装载 器 发 出 请 求 。 除 非 在 数 分 钟 内 系统 没有 引用 符号 链接 (这 
种 情况 下 ， 自 动 装载 器 印 载 了 远程 文件 集 系统 ) ， 否 则 都 可 以 正常 的 访问 文件 。 

后 来 的 内 核实 现 方式 以 真实 的 安装 取代 了 符号 链接 ， 这 样 避免 了 因为 缓存 用 户 级 自动 装载 器 
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使 用 的 临时 路 径 名 而 引起 的 一 些 问 题 [Callaghan 1999]。 

如 果 在 自动 装载 器 列表 中 列 出 包含 同一 文件 集 系统 或 文件 子 树 的 拷贝 的 服务 器 ， 那 么 自动 装 
载 器 可 以 实现 一 种 简单 的 只 读 复制 。 对 不 经 常 改变 但 使 用 频繁 的 文件 系统 而 言 (如 UNIX 系 统 二 进 
制 文件 ) ， 该 机 制 是 非常 有 用 的 。 例 如 ，/usrvlib 目 录 及 其 子 树 的 拷贝 可 以 存储 在 多 个 服务 器 上 。 当 
/usrlib 的 文件 被 一 个 客户 打开 时 ， 系 统 向 所 有 的 服务 器 发 送 试探 性 消息 ， 第 一 个 响应 的 服务 器 的 
文件 集 系 统 被 安装 到 客户 端 上 。 这 种 方式 提供 了 一 定 程度 的 容错 和 负载 平衡 ， 因 为 第 一 个 响应 的 
服务 器 是 正常 工作 着 的 ， 同 时 它 也 可 能 是 负载 较 轻 的 。 

服务 器 缓存 ”为 了 获得 良好 的 性 能 ， 可 以 在 客户 和 服务 器 上 进行 高 速 缓存 ， 它 是 NFS 实 现 的 一 
个 不 可 缺少 的 特征 。 

在 传统 的 UNIX 系 统 中 ， 从 磁盘 上 读 取 的 文件 页 、 目 录 和 文件 属性 都 保留 在 主 存 的 缓冲 区 组 看 
上 ， 直 到 其 他 页 面 要 求 占 用 该 缓冲 区 的 空间 为 止 。 如 果 一 个 进程 对 缓存 中 的 页 面 发 出 一 个 读 或 写 
的 请 求 ， 那 么 系统 不 需要 再 访问 磁盘 就 可 以 完成 此 操作 。 预 先 读 用 于 预测 读 访问 ， 并 将 那些 最 近 
最 常用 的 页 面 取 和 内存， 而 臣 迟 写 用 于 优化 写 操作 的 性 能 : 当 一 个 页 面 已 经 被 改变 时 (因为 一 个 
写 操作 ) ， 只 有 在 该 缓冲 区 页 将 被 其 他 页 占用 时 才 将 该 页 面 内 容 写 到 磁盘 中 。 为 了 防止 因 系统 崩溃 
引起 的 数据 丢失 ，UNIX 的 sync 操 作 每 隔 30s 将 改变 的 页 面 写 到 磁盘 中 。 这 些 缓存 技术 在 传统 的 
UNIX 环 境 中 都 可 行 ， 因 为 由 用 户 级 进程 发 出 的 所 有 的 读 和 写 请 求 都 被 发 送 到 在 UNIX 内 核 空 间 中 
实现 的 一 个 缓存 上 。 该 缓存 保持 的 内 容 是 最 新 的 ， 同 时 文件 操作 不 能 绕 过 该 缓存 。 

仅 当 NFS 服 务 器 被 用 于 访问 其 他 文件 时 ， 它 才 使 用 服务 器 上 的 缓存 。 使 用 服务 器 的 缓存 来 保存 
最 近 读 取 的 磁盘 块 不 会 引起 任何 一 致 性 问题 ， 但 当 服 务 器 执行 写 操作 时 ， 系 统 需要 特殊 的 方法 来 
保证 客户 确信 写 操 作 的 结果 是 持久 性 的 ， 即 使 服务 器 出 涡 时 也 是 如 此 。 在 NFS 协 议 版 本 3 中 ，write 
操作 为 止 提 供 了 两 种 选项 (没有 在 图 8-9 中 标 出 ): 

1) 客户 发 出 的 write 操 作 中 的 数据 存储 在 服务 器 的 内 存 缓存 中 ， 在 给 客户 发 送 应 答 前 先 将 应 答 
写 人 磁盘 。 这 称 为 写 透 缓存 。 客 户 可 以 相信 : 当 他 收 到 应 答 时 ， 数 据 已 经 被 持久 地 存储 起 来 了 。 

2) write 操作 中 的 数据 只 存储 在 内 存 缓存 中 。 当 系统 接收 相关 文件 的 commit 操 作 时 ， 它 被 写 入 
磁盘 中 。 仅 当 客 户 接收 到 相关 文件 的 commit 操 作 的 应 答 时 ， 客 户 才能 肯定 数据 被 持久 地 存储 了 。 
标准 的 NFS 客 户 使 用 这 种 操作 方式 : 在 每 次 用 于 写 而 打开 的 文件 关闭 时 ， 它 发 送 一 个 commit。 

commit 是 NFS 协 议 版 本 3 提供 的 一 个 附加 操作 ， 它 用 来 解决 在 具有 大 量 write 操 作 的 服务 器 中 因 
写 透 操作 模式 引起 的 性 能 瓶颈 问题 。 

在 分 布 式 文件 系统 中 ， 对 写 透 的 需求 是 对 第 1 章 讨论 的 独立 故障 模式 的 一 个 实例 一 一 当 服务 器 
出 现 故 障 后 ， 客 户 可 以 继续 工作 ， 同 时 应 用 程序 在 以 前 写 操作 的 结果 已 经 被 提交 到 磁盘 存储 的 假 
设 下 继续 执行 。 这 种 情况 不 可 能 发 生 在 本 地 文件 更 新 上 ， 因 为 本 地 文件 系统 的 故障 一 定 会 导致 运 
行 在 相同 计算 机 上 的 应 用 程序 进程 发 生 故 障 。 

客户 缓存 ”为 了 减少 传输 给 服务 器 的 请 求 数量 ，NFS 客 户 模块 将 read、write 、getattr、lookup 
和 readdir 操 作 的 结果 缓存 起 来 。 客 户 缓存 可 能 导致 在 不 同 的 客户 节点 上 存在 不 同 版 本 的 文件 或 不 
同 的 文件 内 容 ， 这 是 因为 在 一 个 客户 上 的 写 操作 可 能 不 会 引起 在 其 他 客户 上 的 同一 文件 拷贝 的 立 
即 更 新 。 要 由 客户 用 轮 询 服务 器 的 方式 来 检查 他 们 所 拥有 的 缓存 数据 是 否 是 最 新 的 。 

在 使 用 缓存 块 之 前 ， 可 以 使 用 一 种 基于 时 间 戳 的 方法 对 缓存 块 进行 验证 。 缓 存 中 的 每 个 数据 
或 元 数据 项 被 标记 上 两 种 时 间 戳 ; 

“Tc 是 缓存 条 目 上 一 次 被 验证 的 时 间 。 

。Tm 是 服务 器 上 一 次 修改 文件 块 的 时 间 。 

设 当前 时 间 为 T7， 如 果 7 一 Tc 小 于 更 新 的 时 间 间 隔 :， 或 者 当 记 录 在 客户 端的 Tm 值 和 在 服务 器 上 
的 Tm 值 相等 时 (也 就 是 说 ， 在 缓存 这 个 条 目 后 ， 服 务 器 上 的 数据 就 没有 更 新 过 ) ， 那 么 该 缓存 条 目 
是 有 效 的 。 以 下 是 用 形式 化 方法 表示 的 有 效 性 条 件 : 
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(T— Tc <t) V (Truen= Tmhserver) 

选择 ! 值 时 对 一 致 性 和 效率 进行 了 折 囊 。 更 新 间隔 过 短 会 导致 近似 于 单个 拷贝 的 一 致 性 ， 但 因 ”BB 和 
为 服务 器 要 频繁 地 检查 Tm,,,.,， 开 销 比较 大 。 在 Sun Solaris 客 户 上 ， 根 据 文件 更 新 的 频 度 ，! 可 在 3 一 
30s 之 间 取 值 。 而 对 于 目录 ，{! 可 在 30 ~60s 之 间 取 值 ， 这 说 明 发 生 目 录 并 发 更 新 的 风险 比较 低 。 

每 个 文件 的 所 有 数据 块 都 有 一 个 Tm,,,。, 值 ， 对 于 文件 属性 还 有 另 一 个 值 。 因 为 NFS 客 户 不 知道 
文件 是 否 被 共享 ， 所 以 验证 过 程 要 施加 到 所 有 被 访问 的 文件 。 每 次 使 用 缓存 项 ， 系 统 就 执行 有 效 
性 检查 : 前 一 个 有 效 性 条 件 的 判断 可 以 不 访问 服务 器 就 能 进行 。 如 果 其 判定 结果 为 真 ， 那 么 系统 
不 需要 检查 第 二 个 条 件 ， 如 果 结 果 为 假 ， 那 么 就 要 从 服务 器 上 获得 当前 的 Te,。,。 值 (对 服务 器 应 
用 getattr 操 作 )， 并 将 它 与 本 地 的 Tmis, 进行 比较 。 如 果 结 果 相 同 ， 那 么 此 缓存 项 便 被 认为 有 效 ， 
并 且 其 Tc 值 将 被 更 新 为 当前 时 间 。 如 果 它 们 不 相同 ， 那 么 缓存 的 数据 已 在 服务 器 上 被 更 新 过 ， 此 
条 目 无 效 ， 这 会 产生 一 个 获得 服务 器 上 相关 数据 的 请 求 。 

有 几 种 方法 可 以 减 小 对 服务 器 进行 getattr 调 用 的 数量 ， 

。 当 客户 收 到 一 个 新 的 Tm,。,,, 值 时 ， 将 该 值 应 用 于 所 有 相关 文件 派生 的 缓存 项 。 

* 将 每 一 个 文件 操作 的 结果 辣 当前 文件 属性 一 起 发 送 ， 如 果 Tm,。,,, 值 改变 ， 客 户 便 用 它 来 更 新 

缓存 中 与 文件 相关 的 条 目 。 

采用 自 适应 算法 来 设置 更 新 间隔 值 :， 对 大 多 数 文件 而 言 ， 可 以 极 大 地 减少 调用 数量 。 

验证 过 程 不 能 保证 提供 和 传统 UNIX 系 统一 样 一 致 性 ， 因 为 共享 一 个 文件 的 所 有 客户 并 不 是 总 
能 及 时 知道 数据 的 更 新 ， 会 存在 两 种 时 间 延 迟 : 写 数据 后 更 新 在 客户 内 核 缓存 中 的 相应 数据 之 前 
的 延迟 ， 以 及 用 于 缓存 验证 的 3s 的 “窗口 ”。 幸 运 的 是 ， 大 多 数 UNIX 应 用 程序 并 不 严格 依赖 于 文 
件 的 同步 更 新 ， 由 这 个 原因 引发 的 麻烦 已 经 引起 人 们 的 重视 。 

写 操作 以 不 同 的 方式 被 处 理 。 当 一 个 缓存 的 页 面 被 修改 后 ， 它 被 标记 为 脏 的 ， 并 通过 调度 被 
异步 地 更 新 到 服务 器 中 。 当 客户 关闭 文件 或 发 生 sync 操 作 时 ， 修 改 的 页 面 被 更 新 到 服务 器 中 ， 如 果 
使 用 bio-daemon 〈 见 下 面 的 介绍 ) ， 它 的 更 新 频率 会 更 高 。 这 并 不 能 提供 像 服务 器 缓存 一 样 的 持久 
性 保证 ， 但 它 能 够 模拟 本 地 写 操作 的 行为 。 

为 了 实现 预先 读 和 延迟 写 ，NFS 客 户 需要 异步 地 执行 读 和 写 操 作 。 在 NFS 的 UNIX 实 现 中 ， 客 
户 可 以 通过 在 每 个 客户 端 包 含 一 个 或 多 个 bio-daemon 进 程 实现 这 一 点 。(bio 代 表 块 输入 输出 ， 
daemon 经 常 指 执行 系统 任务 的 用 户 级 进程 。) bio-daemon 负 责 执 行 预先 读 和 延迟 写 操作 。 每 当 发 生 
读 请 求 ， 就 通知 bio-daemon ， 由 它 请 求 将 这 些 文件 块 从 服务 器 传输 给 客户 缓存 。 在 执行 写 操作 的 情 
况 下 ， 当 一 个 块 被 客户 操作 填 满 时 ，bio-daemon 会 将 此 块 发 给 服务 器 。 当 目录 发 生 改 变 时 ， 相 应 的 
目录 块 会 被 立即 发 送 。 

bio-daemon 进 程 改善 了 性 能 ， 确 保 客户 模块 不 会 因 等 待 服务 器 端的 read 返 回 或 者 write 确认 而 阻 
塞 。 这 些 并 不 是 逻辑 上 的 需要 ， 因 为 在 没有 预先 读 的 情况 下 ， 用 户 进 程 的 一 个 read 操 作 会 触发 对 相 
关 服 务 器 的 同步 请 求 ， 当 相关 的 文件 关闭 或 当 客 户 端的 虚拟 文件 系统 执行 一 个 sync 操 作 时 ， 用 户 进 
程 的 write 操作 的 结果 将 被 传输 给 服务 器 。 

其 他 优化 ”Sun 文 件 系统 基于 UNIX BSD 快 速 文件 系统 ， 它 使 用 8KB 磁 盘 块 ， 相 对 于 以 前 的 
UNIX 系 统 ， 它 减少 了 用 于 顺序 文件 访问 的 文件 系统 调用 。 实 现 Sun RPC 的 UDP 数据 包 扩充 到 9KB， 
这 使 得 包含 一 个 完整 块 的 RPC 调 用 可 以 作为 一 个 参数 在 数据 包 中 传送 ， 当 顺序 读 取 文 件 时 ， 还 可 
以 减 小 网 络 延迟 的 影响 。NFSv3 没 有 限制 read 或 write 操 作 处 理 的 文件 块 的 最 大 尺寸 ， 当 文件 块 的 尺 
十 超过 8KB 并 且 客 户 端 和 服务 器 都 可 以 处 理 这 类 文件 块 时 ， 它 们 将 进行 协商 。 

正如 上 面 所 提 到 的 ， 对 于 活动 的 文件 ， 客 户 应 该 至 少 每 隔 3s 更 新 在 缓存 的 文件 的 状态 信息 。 
为 了 减少 由 getattr 请 求 引起 的 服务 器 负载 ， 关 于 文件 或 目录 的 所 有 操作 都 隐 含 getattr 请 求 ， 并 且 可 
以 在 其 他 操作 的 结果 中 朱 带 上 当前 的 属性 值 。 

用 Kerberos 实 现 NFS 的 安全 性 ”在 7.6.2 节 中 ， 我 们 介绍 了 MIT 开 发 的 Kerberos 认 证 系统 ， 它 已 
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经 成 为 保护 企业 内 部 网 服务 器 防止 非 授权 访问 和 恶意 攻击 的 工业 标准 。 使 用 Kerberos 方 案 认证 客户 
增强 了 NFS 实 现 的 安全 性 。 本 小 节 将 介绍 NFS 的 “Kerberos 化 ”实现 〈 它 由 Kerberos 的 设计 者 完成 ) 。 

在 NFS 最 初 的 标准 实现 中 ， 用 户 标 识 以 非 加 密 的 数字 标识 符 形式 放置 在 每 一 个 请 求 中 (在 以 后 
的 NFS 版 本 中 ， 这 些 标识 符 可 以 被 加 密 )。NFS 并 没有 采取 其 他 措施 来 检查 客户 标识 符 的 真实 性 。 
这 意味 着 必须 高 度 信任 客户 计算 机 及 其 NFS 软 件 的 真实 性 ， 而 Kerberos 和 其 他 基于 认证 的 安全 系统 
的 目的 就 是 尽量 减少 需要 信任 的 组 件 的 范围 。 实 质 上 ， 当 在 “Kerberos 化 ”环境 中 使 用 NFS 时 ， 它 
只 能 接收 那些 通过 Kerberos 认 证 的 客户 发 出 的 请 求 。 

Kerberos 开 发 者 考虑 过 的 一 种 直接 的 解决 方案 是 将 NFS 所 需要 的 凭证 的 本 质 转变 为 成 熟 的 
Kerberos 票 证 和 认证 器 。 但 因为 NFS 是 作为 无 状态 服务 器 的 形式 实现 的 ， 所 以 每 一 个 文件 的 访问 请 
求 都 是 按 请 求 内 容 处 理 的 ， 并 且 每 一 个 请 求 中 必须 包含 认证 数据 。 这 种 设计 是 难以 接受 的 ， 因 为 执 
行 必要 的 加 密 所 需 的 时 间 代 价 是 相当 大 的 ， 同 时 在 每 个 工作 站 内 核 中 都 必须 加 入 Kerberos 客 户 库 。 

实际 的 系统 采用 了 一 种 混合 的 方法 ， 即 安装 用 户 的 主 文件 集 系 统 和 根 文件 集 系统 时 ， 给 NEFS 安 
装 服务 器 提供 用 户 所 有 的 Kerberos 认 证 数据 。 认 证 结果 包含 用 户 常规 的 数字 标识 符 和 客户 计算 机 的 

[346| ” 地址， 它们 被 保存 在 服务 器 每 个 文件 集 系 统 的 安装 信息 中 (尽管 NFS 服 务 器 并 没有 保存 与 单个 客户 
进程 相关 的 状态 ， 但 它 还 是 保存 了 每 一 个 客户 计算 机 的 当前 安装 信息 )。 

对 于 每 个 文件 访问 请 求 ，NFS 服 务 器 检查 用 户 标识 符 和 发 送 者 的 地 址 ， 仅 当 这 两 者 都 与 存储 在 
服务 器 中 的 相关 客户 端的 安装 信息 相符 时 ，NFS 服 务 器 才 人 允许 访问 。 这 种 混合 的 方法 仅 需 要 很 少 的 
附加 开销 ， 而 且 如 果 在 某 一 时 刻 每 一 个 客户 计算 机 上 只 有 一 个 用 户 使 用 时 ， 那 么 它 对 于 大 多 数 形 
式 的 攻击 而 言 是 安全 的 。MIT 采 用 这 种 方法 设计 其 系统 ， 最 近 ，NFS 实 现 将 Kerberos 认 证 作为 几 种 
认证 选项 之 一 ， 并 且 建 议 在 运行 Kerberos 服 务 器 的 机 器 上 选择 此 选项 。 

性 能 ”由 Sandberg[1987] 报 告 的 早期 性 能 图 表 说 明 ， 相 对 于 访问 存储 在 本 地 磁盘 的 文件 而 言 ， 
使 用 NFS 通 常 不 会 导致 性 能 降低 。 他 提出 了 两 个 问题 : 

* 为 了 从 服务 器 获得 时 间 蕉 以 进行 缓存 验证 ， 系 统 频 繁 地 使 用 getattri 调 用 。 

* 因为 写 透 是 在 服务 器 端 使 用 的 ， 这 导致 了 write 操 作 性 能 相对 较 差 。 

他 同时 指出 ， 在 典型 的 UNIX 工 作 负 载 中 ，write 操 作 相对 不 多 (大 约 占 对 服务 器 调用 的 5%)， 
因此 ， 除 了 将 大 文件 写 入 服务 器 这 种 情况 外 ， 写 透 操作 的 开销 是 可 以 容忍 的 。 他 所 测试 的 NFS 的 版 
本 并 不 包含 上 面 所 提 到 的 commit 机 制 ， 而 当前 NFS 版 本 中 的 这 一 机 制 将 明显 提高 写 性 能 。 他 的 结 
果 也 表明 ，lookup 操 作 大 约 占 服务 器 调用 的 530% 。 这 是 使 用 UNIX 文 件 名 语义 所 需 的 一 步 步 的 路 径 
名 翻译 方法 带 来 的 结果 。 

Sun 和 其 他 NFS 实 现 者 使 用 LADDIS[Keith and Wittle 1993] 这 样 的 基准 程序 集 进 行 正规 的 度量 
测试 。 现 在 和 过 去 的 一 些 测 试 结果 可 以 在 [www.spec.org] 上 找到 ， 其 中 总 结 了 不 同 厂 商 的 NFS 实 现 
和 不 同 硬件 配置 上 的 性 能 差别 。 基 于 PC 硬件 的 单一 CPU， 以 及 专用 的 操作 系统 实现 能 够 获得 超过 
每 秒 12 000 个 服务 器 操作 的 吞吐 量 ， 而 拥有 多 个 磁盘 和 控制 器 的 大 规模 多 处 理 器 配置 能 够 获得 每 种 
300 000 个 服务 器 操作 的 吞吐 量 。 这 些 数 字 说 明 : 不 管 是 能 够 支持 数 以 百 计 的 软件 工程 师 进行 开发 
的 传统 UNIX， 还 是 通过 NFS 服 务 器 获取 数据 的 Web 服 务 器 组 ，NFS 可 以 为 大 多 数 企 业内 部 网 (无 
论 它 的 规模 和 使 用 类 型 ) 的 分 布 式 存储 需求 提供 有 效 的 服务 。 

NFS 小 结 Sun NEFS 与 我 们 的 抽象 模型 十 分 相似 。 如 果 NFS 的 安装 服务 为 每 个 客户 都 提供 类 似 
的 名 字 空 间 ， 那 么 这 种 设计 便 能 提供 良好 的 位 置 透明 性 和 访问 透明 性 。NFS 支 持 异 构 的 硬件 和 操作 
系统 。NFS 服 务 器 的 实现 是 无 状态 的 ， 它 使 得 客户 和 服务 器 在 出 现 故障 后 不 需要 任何 人 恢复 过 程 就 可 
以 继续 执行 操作 。NFS 不 支持 文件 或 文件 集 系统 的 迁移 ， 除非 在 将 一 个 文件 集 系 统 移动 到 一 个 新 位 

置 后 ， 由 客户 手工 干预 ， 重 新 配置 安装 指令 。 

在 每 个 客户 计算 机 上 缓存 文件 块 可 以 大 大 提高 NFS 的 性 能 。 为 了 达到 满意 的 性 能 ， 这 一 点 很 重 

要 ， 但 是 它 导致 系统 偏离 了 UNIX 严 格 的 单个 拷贝 文件 更 新 语义 。 





分 布 式 文件 丸 纯 227 








下 面 是 NFS 其 他 的 设计 目标 以 及 它们 被 实现 的 程度 : 

访问 透明 性 : NFS 的 客户 模块 为 应 用 程序 提供 的 对 本 地 进程 的 接口 与 它 为 本 地 操作 系统 提供 的 
接口 相同 。 这 样 UNIX 的 客户 可 以 使 用 正常 的 UNIX 系 统 调用 来 访问 远程 文件 。 用 户 不 需要 修改 现 
有 的 程序 就 能 使 这 些 应 用 程序 正确 地 访问 远程 文件 。 

位 置 址 明 性 : 每 个 客户 通过 将 一 个 已 安装 的 远程 文件 集 系 统 的 目录 加 入 自己 的 本 地 名 字 空 间 
来 建立 一 个 文件 名 空间 。 如 果 客 户 进程 要 访问 一 个 远程 文件 系统 ， 那 么 包含 远程 文件 系统 的 计算 
机 节点 必须 导出 该 文件 系统 ， 并 且 客 户 在 使 用 前 必须 远程 安装 该 文件 系统 (参见 图 8-10)。 远 程 安 
装 的 文件 系统 出 现 的 客户 名 字 层 次 上 的 地 点 由 客户 自己 决定 ， 因 此 NFS 并 没有 强制 实现 一 个 网 络 范 
围 的 文件 名 字 空 间 一 一 每 个 客户 看 到 的 远程 文件 集 系 统 都 是 本 地 定义 的 ， 同 一 远程 文件 在 不 同 的 
客户 上 可 能 有 不 同 的 路 径 名 ， 为 了 实现 位 置 透明 性 ， 客 户 可 以 根据 恰当 的 配置 表 来 建立 统一 的 名 
字 空 间 。 

移动 透明 性 : 文件 集 系统 (在 UNIX 中 ， 它 是 文件 树 的 子 树 ) 可 以 在 服务 器 之 问 移动， 但 为 了 
使 客户 能 访问 在 新 位 置 上 的 文件 集 系 统 ， 要 分 别 更 新 每 一 个 客户 上 的 远程 安装 表 ， 所 以 NFS 不 能 完 
全 达到 迁移 透明 性 。 

可 伸缩 性 : 已 经 发 表 的 性 能 数据 表明 ，NFS 服 务 器 可 以 以 一 种 比较 有 效 、 高 性 价 比 的 方式 处 理 
现实 工作 环境 中 的 大 量 负载 。 通 过 增加 处 理 器 、 磁 盘 和 控制 器 ， 单 个 服务 器 上 的 性 能 会 提高 。 但 
达到 处 理 极限 时 ， 必 须 加 入 新 的 服务 器 ， 同 时 在 服务 器 间 重 新 分 配 文 件 集 系 统 。 这 种 策略 的 效率 
受 “ 热 点 ”文件 的 限制 ,“ 热 点 ”文件 是 指 被 频繁 访问 从 而 导致 服务 器 达到 性 能 极限 的 文件 。 若 负 
载 超过 了 这 种 策略 可 提供 的 最 大 性 能 ， 分 布 式 文件 系统 可 提供 更 好 的 解决 方案 ， 例 如 可 以 使 用 支 
持 复制 可 更 新 文件 的 分 布 式 文件 系统 (如 Coda， 见 第 15 章 )， 或 者 像 AFS 这 样 通过 缓存 整个 文件 减 
少 协议 通信 量 的 软件 。 我 们 将 在 8.5 节 介绍 实现 伸缩 性 的 其 他 方法 。 

文件 复制 : 只 读 文 件 可 以 复制 到 多 个 NFS 服 务 器 上 ， 但 NFS 不 支持 具有 更 新 的 文件 的 复制 。 
Sun 网 络 信息 服务 (NIS) 是 一 个 可 与 NFS 一 起 使 用 的 服务 ， 它 支持 以 键 一 值 对 形式 组 织 的 简单 数据 
库 的 复制 (例如 ，UNIX 的 系统 文件 /etc/passwd 和 /etc/hosts)。 它 根据 一 个 简单 的 主 一 从 复制 模型 
(或 者 叫 主 拷贝 模型 ， 将 在 第 15 章 讨论 ， 该 模型 在 每 个 场地 上 提供 数据 库 的 部 分 拷贝 或 全 部 拷贝 ) 
来 管理 分 布 式 更 新 和 对 复制 文件 的 访问 。NI1S 为 不 经 常 变化 的 系统 信息 提供 了 一 个 共享 库 ， 并 且 它 
不 要 求 所 有 的 更 新 同步 进行 。 

硬件 和 操作 系统 的 异 构 性 : 几乎 在 所 有 已 知 的 操作 系统 和 硬件 平台 上 都 实现 了 NFS ， 有 许多 文 
件 系 统 支 持 NFS 。 

容错 : NFS 文件 访问 协议 的 无 状态 和 竹 等 性 本 质 确 保 在 访问 远程 文件 时 客户 发 现 的 故障 模式 与 
访问 本 地 文件 时 发 生 的 故障 模式 类 似 。 当 服务 器 失效 后 ， 它 提供 的 服务 会 挂 起 ， 直 到 服务 器 重启 
为 止 ， 一旦 服务 器 重启 ， 用 户 级 客户 进程 就 可 以 从 服务 中 断 的 那 一 点 继续 执行 ， 它 不 需要 了 解 服 
务 器 出 了 什么 故障 (访问 软 安 装 的 远程 文件 系统 除外 )。 实 际 上 ， 在 大 多 数 情况 下 系统 使 用 的 是 硬 
安装 ， 并 且 它 阻止 让 应 用 程序 处 理 服 务 器 故障 。 

客户 计算 机 或 客户 的 用 户 级 进程 的 故障 不 会 影响 它 使 用 的 服务 器 ， 因 为 服务 器 不 存储 代表 客 
户 状态 的 任何 信息 。 | 

一 致 性 : 我 们 已 经 比较 详细 地 描述 了 更 新 行为 。 它 提供 的 语义 近似 于 单个 找 贝 语义 ， 它 能 满 
足 大 多 数 应 用 程序 的 要 求 ， 但 我 们 不 推荐 将 NFS 提 供 的 文件 共享 用 于 通信 或 在 不 同 计算 机 进程 之 间 
的 紧密 协作 。 

安全 性 : 当 将 企业 内 部 网 连接 到 因特网 上 时 ， 对 NFS 提 出 了 安全 性 要 求 。NFS 与 Kerberos 的 结 
合 是 一 个 巨大 的 进步 。 最 近 还 有 一 些 进展 ， 例 如 提供 安全 RPC 实 现 (RPCSEC_GSS， 见 RFC 
2203[Eisler et al. 1997]) ， 用 于 认证 和 在 读 写 数据 时 提供 传输 数据 的 私密 性 和 安全 性 。 许 多 安装 还 
没有 使 用 这 些 安全 性 机 制 ， 因 此 它们 是 不 安全 的 。 


oo0 
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效率 : 几 个 NFS 实 现 的 性 能 度量 和 NFS 在 大 负载 的 环境 的 广泛 使 用 ， 都 说 明 NFS 协 议 实 现 具 有 
较 高 的 效率 。 


8.4 实例 研究 ，Andrew 文 件 系统 


和 NFS 一 样 ，AFS 为 运行 在 工作 站 上 的 UNIX 程 序 提供 了 对 远程 共享 文件 的 透明 访问 。 可 以 用 
正常 的 UNIX 文 件 原 语 访问 ASF 文 件 ， 使 现 有 的 UNIX 程 序 可 以 不 经 过 修改 或 重 编 译 就 可 以 访问 AFS 
文件 。AFS 和 NFS 是 兼容 的 : AFS 服 务 器 拥有 “本 地 ”UNIX 文 件 ， 但 在 服务 器 上 的 文件 系统 是 基于 
NFS 的 ， 这 样 它 使 用 NFS 风 格 的 文件 句柄 而 不 是 ;节点 来 引用 文件 ， 并 且 可 通过 NFS 远 程 访问 文件 。 

ARS 主 要 在 设计 和 实现 方面 与 NSFS 有 区 别 。 区 别 主 要 在 于 可 伸缩 性 这 一 重要 的 设计 目标 。 相 对 

349| ”于 其 他 分 布 式 文件 系统 而 言 ，AFS 用 来 满足 更 多 活动 用 户 使 用 的 需要 。AFS 实 现 可 伸缩 性 的 关键 策 
略 是 在 客户 节点 上 缓存 整个 文件 。AFS 有 两 个 设计 特点 : 

。 整 体 文 件 服务 : AFS 服 务 器 将 整个 文件 和 目录 的 内 容 都 传输 到 客户 计算 机 上 (在 AFS-3 中 ， 

大 于 64KB 的 文件 以 64KB 文 件 块 的 形式 传输 ) 。 

。 整 体 文件 缓存 : 当 一 个 文件 或 文件 块 的 拷贝 被 传输 到 客户 计算 机 上 时 ， 它 被 存储 到 本 地 磁盘 

的 缓存 中 。 该 缓 在 包含 该 计算 机 最 常用 的 数 百 个 文件 。 该 缓存 是 持久 的 ， 不 会 随 客户 计算 机 

的 重启 而 丢失 缓存 内 容 。 文 件 的 本 地 拷贝 用 于 满足 客户 访问 远程 文件 拷贝 的 open 请 求 。 

场景 下 面 是 一 个 简单 的 场景 ， 用 于 说 明 AFS 操 作 : 

。 当 一 个 客户 计算 机 上 的 用 户 进程 向 共享 文件 空间 内 的 一 个 文件 发 出 open 系 统 调用 ， 并 且 这 一 

文件 的 当前 拷贝 不 在 本 地 缓存 上 时 ，AFS 查 找 文 件 所 在 的 服务 器 ， 并 向 其 请 求 传输 此 文件 的 

一 个 拷贝 。 

* 传输 来 的 文件 拷贝 存储 在 客户 计算 机 的 本 地 UNIX 文 件 系统 中 。 该 文件 拷贝 被 打开 ， 相 应 的 

UNIX 文 件 描述 符 被 返回 给 客户 。 

。 客 户 计算 机 上 的 进程 在 此 文件 拷贝 上 进行 一 系列 read、write 和 其 他 操作 。 

。 当 客户 进程 发 出 一 个 close 系 统 调用 时 ， 如 果 本 地 的 文件 拷贝 的 内 容 已 经 改变 ， 则 该 文件 就 被 

传 回 服务 器 。 服 务 器 更 新 此 文件 的 内 容 和 时 间 戳 。 客 户 本 地 磁盘 上 的 拷贝 一 直 被 保留 ， 以 供 

在 同一 工作 站 上 的 用 户 级 进程 下 一 次 使 用 。 

下 面 我 们 将 讨论 AFS 的 性 能 ， 但 我 们 只 能 根据 上 面 提 到 的 AFS 的 设计 特点 来 粗略 地 观察 和 预测 
其 性 能 : 

。 对 于 那些 不 常 更 新 的 共享 文件 (例如 那些 包含 UNIX 命 令 和 库 的 代码 的 文件 ) 和 那些 通常 只 

有 一 个 用 户 访问 的 文件 〈 例 如 在 用 户 的 主 目录 及 其 子 目 录 中 的 文件 ) ， 本 地 缓存 的 拷贝 可 以 

在 相当 长 的 时 间 内 保持 有 效 一 一 在 第 一 种 情况 中 ， 是 因为 文件 不 被 更 新 、 在 第 二 种 情况 中 ， 

是 因为 如 果 文 件 被 更 新 ， 更 新 的 文件 拷贝 会 被 保存 在 用 户 自 己 的 工作 站 缓存 中 。 这 两 种 类 型 

的 文件 占 被 访问 文件 的 总 数 的 绝 大 部 分 。 

“本 地 缓存 可 以 获得 每 个 工作 站 的 磁盘 空间 上 相当 大 的 空间 ， 比 如 100MB 。 通 常 ， 对 于 一 个 用 

户 使 用 的 工作 文件 集 来 说 ， 这 一 空间 是 足够 大 的 。 为 文件 工作 集 提 供 足够 的 缓存 空间 ， 可 以 

保证 在 给 定 工作 站 上 常规 使 用 的 文件 存储 在 缓存 里 以 便 下 次 使 用 。 

。 设 计策 略 基 于 一 些 假设 ， 这 些 假 设 包 括 UNIX 系 统 中 文件 的 平均 大 小 、 最 大 文件 大 小 以 及 文 

件 引 用 的 地 域 性 。 这 些 假设 是 通过 观察 学 术 和 其 他 环境 中 的 一 些 典 型 的 UNIX 负 载 得 到 的 

[Satyanarayanan 1981; Ousterhout et al. 1985; Floyd 1986]。 其 中 最 重要 的 结果 包括 ， 

350 -通常 文件 比较 小 ， 大 多 数 文件 小 于 10KB。 
- 文件 的 读 操 作 比 写 操作 更 常用 (通常 是 6 倍 以 上 ) 。 
- 顺序 访问 更 常用 、 随 机 访问 不 常用 。 


-大 多 数 文件 只 由 一 个 用 户 读 写 。 当 文件 被 共享 时 ， 通 常 只 有 一 个 用 户 修改 它 。 

- 文件 引用 是 爆发 性 的 。 如 果 一 个 文件 最 近 被 引用 ， 那 么 很 有 可 能 在 不 久 的 将 来 被 再 次 引用 。 
上 述 观察 结论 可 用 于 指导 AFS 的 设计 和 优化 ， 而 不 是 限制 用 户 可 用 的 功能 。 

。 对 于 上 面 第 一 点 所 提 到 的 文件 类 型 ，AFS 能 很 好 地 运行 。 还 有 一 种 重要 的 文件 类 型 ， 它 不 属 
于 上 述 文件 类 型 一 一 数据 库 通常 许多 用 户 共享 .并且 频繁 地 更 新 。AFS 的 设计 者 已 经 明确 地 
从 设计 目标 中 排除 了 数据 库 的 存储 功能 ， 他 们 认为 由 于 不 同 的 命名 结构 具有 的 约束 〈 即 基于 
内 容 的 访问 ) 以 及 对 细 粒 度数 据 访 问 、 并 发 控制 、 更 新 原子 性 的 需要 ， 造 成 设计 一 个 分 布 式 
数据 库 ( 它 也 是 一 个 分 布 式 文件 系统 ) 是 比较 困难 的 。 他 们 认为 应 该 单独 考虑 分 布 式 数据 库 
的 功能 [Satyanarayanan 1989a]。 : 


8.4.1 实现 


上 面 的 场景 介绍 了 AFS 的 操作 ， 但 留 下 许多 有 关 其 实现 的 问题 。 其 中 最 重要 的 问题 包括 : 

。 当 客户 对 共享 文件 空间 中 的 文件 发 出 open 或 close 系 统 调用 时 ，AFS 怎 样 获得 控制 ? 

。 如 何 定位 包含 所 需 文件 的 服务 器 ? 

在 工作 站 上 如 何 为 缓存 文件 分 配 存储 空间 ? 

。 当 文件 可 能 被 多 个 客户 更 新 时 ，AFS 怎 样 保证 缓存 中 的 文件 拷贝 是 最 新 的 ? 

下 面 将 回答 这 些 问 题 。 

AFS 由 两 个 软件 组 件 实现 ， 这 两 个 软件 组 件 作 为 两 个 UNIX 进 程 Vice 和 Venus 存在 。 图 8-11 给 
出 了 Vice 和 Venus 进 程 的 分 布 。Vice 是 服务 器 软件 的 名 字 ， 它 是 运行 在 每 个 服务 器 计算 机 上 的 用 户 
级 UNIX 进 程 ，Venus 是 运行 在 客户 计算 机 上 的 用 户 级 进程 ， 相 当 于 我 们 给 出 的 抽象 模型 中 的 客户 
模块 。 





图 8-11 在 Andrew 文 件 系 统 中 的 进程 分 布 


ca 六 -二 


可 用 于 运行 在 工作 站 上 的 用 户 进程 的 文件 是 本 地 的 或 共享 的 。 本 地 文件 可 作为 普通 的 UNIX 文 
件 来 处 理 ， 它 们 被 存储 在 工作 站 磁盘 上 ， 只 有 本 地 用 户 进程 可 以 访问 它 。 共 享 文件 存储 在 服务 器 
上 ， 工 作 站 在 本 地 磁盘 上 缓存 它们 的 拷贝 。 图 8-12 显 示 了 用 户 进程 所 看 到 的 名 字 空 间 。 它 是 一 个 传 
统 的 UNIX 目 录 层 次 结构 ， 其 中 有 一 个 包含 所 有 共享 文件 的 子 树 ( 称 为 cmu)。 将 文件 名 空间 划分 为 
本 地 文件 和 共享 文件 会 丧失 一 部 分 位 置 透明 性 ， 但 除了 系统 管理 员 以 外 ， 一 般 的 用 户 很 难 注意 到 
这 一 点 。 本 地 文件 仅 作为 临时 文件 (/tmp)， 或 者 供 工作 站 启动 进程 使 用 。 其 他 标准 的 UNIX 文 件 
(例如 那些 通常 在 /bin、/lib 目 录 下 的 文件 ) 实际 上 是 通过 将 本 地 文件 目录 中 的 文件 符号 链接 到 共享 
文件 空间 这 种 方式 实现 的 。 用 户 目录 被 放 在 共享 空间 中 ， 这 使 得 用 户 可 以 从 任意 一 个 工作 站 访问 
他 们 的 文件 。 
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工作 站 和 服务 器 上 的 UNIX 内 核 是 BSD UNIX 的 修改 版 本 。 修 改 的 部 分 主要 是 截获 那些 指向 共 
享 名 字 空 间 中 文件 的 调用 ， 例 如 open、close 和 其 他 一 些 文件 系统 调用 ， 并 将 它们 传递 给 客户 计算 
机 上 的 Venus 进程 处 理 (参见 图 8-13)。 对 内 核 的 另外 一 个 修改 是 基于 性 能 的 考虑 ， 将 在 后 面 介绍 。 





图 8-12 AFS 的 客户 所 看 到 的 文件 名 空间 


工作 站 
必 疾 个 申 等 演 瑚 关注 六 23， 记 





学 2 


每 个 工作 站 的 本 地 磁盘 上 都 有 一 个 文件 分 区 被 用 作文 件 的 缓存 ， 保 存 共享 空间 中 的 文件 拷贝 。 
Venus 进 程 管理 这 一 缓存 。 当 文件 分 区 已 满 ， 并 且 有 一 个 新 的 文件 需要 从 服务 器 拷贝 过 来 时 ， 它 将 
最 近 最 少 使 用 的 文件 从 缓存 中 删除 。 通 常 ， 这 些 工作 站 缓存 都 足够 大 ， 可 以 容纳 数 百 个 一 般 大 小 的 
文件 ， 这 样 ， 当 客户 缓存 已 经 包含 了 当前 用 户 文件 和 经 常 使 用 的 系统 文件 时 ， 工 作 站 可 以 基本 独立 
于 Vice 服 务 器 工作 。 
AFS 和 8.2 节 描述 的 抽象 文件 服务 模型 在 下 列 方面 很 相似 : 
。 Vice 服 务 器 实现 了 平面 文件 服务 ， 工 作 站 上 的 Venus 进程 实现 了 UNIX 用 户 程序 所 需 的 层次 目 
录 结 构 。 
“共享 文件 空间 中 的 每 一 个 文件 和 目录 是 由 类 似 于 UFID 的 唯一 的 96 位 的 文件 标识 符 (fid) 标 
识 的 。Venus 进 程 将 客户 使 用 的 文件 路 径 名 翻译 为 fid。 
文件 可 以 聚集 成 卷 以 便 存 储 和 移动 。 郑 通常 比 UNIX 的 文件 集 系统 小 一 些 ， 文 件 集 系统 是 NFS 
中 的 文件 分 组 的 单位 。 例 如 ， 每 个 用 户 的 个 人 文件 通常 位 于 独立 的 卷 中 。 其 他 卷 用 来 存储 系统 二 
“| 进 制 文件 、 文 档 和 库 代码 。 
fid 的 表示 包括 文件 所 在 卷 的 卷 号 (类比: UFID 中 的 文件 组 标识 ) 、 用 来 标识 卷 中 文件 的 NFS 
文件 句柄 (类比 : "UFID 中 的 文件 号 ) 以 及 保证 此 文件 标识 不 被 重用 的 唯一 标识 ; 
32 位 32 位 32 位 


用 户 程序 使 用 传统 的 UNIX 文 件 路 径 名 来 引用 文件 ， 但 AFS 在 Venus 和 Vice 进 程 之 间 通 信 中 使 
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用 fid。Vice 服 务 器 只 接收 用 fid 表 示 的 文件 请 求 。 因 此 ，Venus 要 将 客户 提供 的 路 径 名 翻译 为 fid， 
这 是 由 Venus 通 过 一 步 步 地 在 Vice 服 务 器 的 文件 目录 中 查找 信息 而 实现 的 。 

图 8-14 描 述 了 当 一 个 用 户 进程 发 出 上 面 场景 提 到 的 系统 调用 时 ，Vice、Venus 和 UNIX 内 核 采 
取 的 动作 。 这 里 所 说 的 回调 承诺 是 一 种 保证 机 制 ， 用 于 保证 当 其 他 客户 关闭 更 新 后 的 共享 文件 时 ， 
本 地 缓存 中 的 此 文件 拷贝 也 被 更 新 。 下 节 将 讨论 该 机 制 。 


open(FileName, 
mode) 


a 


| 传输 一 个 广 


件 拷贝 以 及 


read(FileDescr- 隐 : 地 
iptor, Buffer, Length) | 执行 一 个 
p> en |UNIX 读 操作 
write(FileDescri- 在 本 地 挡 
ptor,Buffer,Length) | 执行 一 个 正 
UNIX 写 操 


close(FileDesc- SE 闭 地 找 


riptor) 并 通知 Venus 此 文 
件 已 经 被 关闭 


贝 


图 8-14 AFS 中 文件 系统 调用 的 实现 





8.4.2 缓存 的 一 致 性 


当 Vice 为 Venus 进程 提供 文件 拷贝 时 ， 它 同时 提供 了 一 个 回调 承诺 一 一 由 管理 该 文件 的 Vice 服 
务 器 发 送 的 一 种 标识 ， 用 于 保证 当 其 他 客户 修改 此 文件 时 通知 Venus 进程 。 回 调 承诺 和 被 缓存 的 文 
件 一 起 存储 在 工作 站 磁盘 上 ， 它 有 两 种 状态 : 有 效 或 取消 。 当 服务 器 执行 一 个 更 新 文件 请 求 时 ， 
它 会 通知 它 发 送 过 回调 承诺 的 所 有 Venus 进程 ， 其 方式 是 向 每 一 个 进程 发 送 一 个 回调 ， 回 调 是 从 服 
务 器 到 Venus 进程 的 一 种 远程 过 程 调 用 。 当 Venus 进程 接收 到 回调 时 ， 它 将 相关 文件 的 回调 承诺 标 
识 设置 为 取消 状态 。 

当 Venus 处 理 客户 的 open 请 求 时 ， 它 首先 检查 其 缓存 。 如 果 所 需 的 文件 在 缓存 中 ， 它 便 检 查 其 
标识 。 如 果 标 识 的 值 是 取消 ， 那 么 必须 从 Vice 服 务 器 取得 文件 的 最 新 拷贝 ， 如 果 它 的 值 是 有 效 ， 
那么 Venus 不 需要 引用 Vice 就 可 以 打开 和 使 用 缓存 中 的 文件 拷贝 。 

当 工 作 站 因为 故障 或 关 栅 而 重启 时 ，Venus 要 在 本 地 磁盘 上 保留 尽 可 能 多 的 缓存 文件 ， 但 它 不 
能 肯定 回调 承诺 标识 是 正确 的 ， 因 为 一 些 回调 可 能 已 经 丢失 了 。 因 此 ， 在 重启 后 第 一 次 使 用 缓存 
文件 或 目录 之 前 ，Venus 要 生成 一 个 缓存 有 效 性 请 求 发 给 管理 该 文件 的 服务 器 ， 该 请 求 包含 文件 修 
改 时 间 惟 。 如 果 其 时 间 惟 是 当前 的 ， 服 务 器 就 应 答 一 个 有 效 信 息 ， 其 标识 值 被 恢复 。 妇 果 时 间 蕉 
显示 该 文件 是 过 期 的 ， 那 么 服务 器 便 应 答 一 个 取消 信息 ， 其 标识 就 被 设置 为 取消 状态 。 在 打开 文 
件 之 前 ， 如 果 从 文件 被 缓存 开始 已 经 有 7 时 间 (通常 为 几 分 钟 ) 没有 和 服务 器 通信 了 ， 那 么 回调 忆 
须 被 更 新 。 这 样 可 以 处 理 可 能 的 通信 故障 ， 因 为 通信 故障 可 能 导致 回调 信息 的 丢失 。 
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相对 于 采用 了 和 NFS 相 似 的 基于 时 间 戳 机 制 的 原型 《AFS-1) 方法 而 言 ， 这 种 维持 缓存 一 致 性 
的 基于 回调 的 机 制 可 以 提供 更 大 的 可 伸缩 性 。 在 AFS-1 中 ， 拥 有 缓存 文件 拷贝 的 Venus 进程 进行 
open 操 作 时 会 询问 Vice 进 程 ， 以 便 判 定 本 地 拷贝 上 的 时 间 惟 和 服务 器 上 的 时 间 惟 是 否 相符 。 基 于 
回调 的 方法 具有 更 大 的 可 伸缩 性 ， 因 为 它 只 在 文件 被 更 新 时 才 产 生 客户 和 服务 器 的 通信 以 及 服务 
器 上 的 活动 ， 而 时 间 惟 方法 会 在 每 一 个 open 操 作 时 都 产生 客户 和 服务 器 的 通信 ， 即 使 本 地 有 有 效 
的 拷贝 。 因 为 绝 大 多 数 文件 都 不 会 被 并 发 访问 ,同时 在 大 多 数 应 用 中 ，read 操 作 比 write 操作 多 得 多 ， 
回调 机 制 使 客户 和 服务 器 的 交互 量 大 大 减少 。 

与 AFS-1、NFS 和 我 们 的 文件 服务 模型 不 同 ，AFS-2 和 其 后 的 AFS 版 本 使 用 的 回调 机 制 要 求 
Vice 服 务 器 维护 一 些 Venus 客户 的 状态 信息 。 这 些 与 客户 有 关 的 状态 信息 包含 发 送 过 回调 承诺 的 
Venus 进程 列表 。 这 一 回调 列表 应 在 服务 器 故障 时 也 被 保留 一 一 它们 被 保存 在 服务 器 磁盘 上 ， 同 时 
系统 对 它们 使 用 原子 性 更 新 加 以 操作 。 

图 8-15 显 示 了 AFS 服 务 器 提供 的 用 于 文件 操作 的 RPC 调 用 (也 就 是 AFS 服 务 器 为 Venus 进程 提 
供 的 接口 ) 。 





Fetch(fid) 一 attr,data 返回 用 fid 标 识 的 文件 属性 (状态 ) 和 文件 内 容 (可 选 )， 同时 记录 一 个 回调 承诺 | 





Store(fid,attr,data) 更 新 指定 文件 的 属性 和 文件 内 容 (可 选 ) 

Create() 一 fid 创建 一 个 新 文件 并 记录 一 个 回调 承诺 

Remove(fid) 删除 指定 的 文件 

SetLock(fid,mode) 为 指定 的 文件 或 目录 加 锁 ， 锁 的 模式 可 以 是 共享 锁 或 排 它 锁 。 在 30min 后 ， 没 有 
解除 的 锁 视 为 过 期 。 

ReleaseLock(fid) 为 指定 的 文件 或 目录 解锁 

RemoveCailback(fid) 通知 服务 器 一 个 Venus 进程 已 经 将 文件 更 新 

BreakCallback(fid) Vice 服 务 器 对 Venus 进程 发 出 调用 。 它 取消 相关 文件 上 的 回调 承诺 





注意 : 图 中 没有 显示 目录 和 管理 操作 (Rename、Link、 Makedir、 Removedir、GetTime、CheckToken 等 ) 。 
图 8-15 Vice 服 务 接口 的 主要 组 件 


更 新 语义 ”缓存 一 致 性 机 制 的 目标 是 : 在 不 对 性 能 产生 严重 影响 的 情况 下 ， 近 似 实现 单个 找 
贝 文件 语义 。 UNIX 文 件 访 问 原 语 的 单个 拷贝 语义 的 严格 实现 要 求 对 每 一 个 文件 进行 write 操作 时 ， 
其 结果 必须 在 发 生 进一步 访问 操作 之 前 发 送 到 所 有 在 缓存 中 包含 此 文件 的 计算 机 上 。 在 规模 较 大 
的 系统 中 ， 这 是 不 可 行 的 ， 而 回调 承诺 机 制 维护 了 一 种 对 单个 拷贝 语义 的 较 好 的 近似 实现 。 

对 AFS-1 来 说 ， 可 以 用 很 简单 的 方法 形式 化 表示 它 的 更 新 语义 。 若 客户 C 操 作 服 务 器 S 管 理 的 
文件 F，F 拷 贝 的 传播 要 保证 满足 以 下 条 件 ， 

* 在 成 功 的 open 操 作 后 : latest(F,S) 

。 在 失败 的 open 操 作 后 : failure(S) 

。 在 成 功 的 close 操 作 后 : updated(F,S) 

。 在 失败 的 close 操 作 后 failure(S) 

其 中 ，latest(F,S) 表 示 文 件 F 在 客户 C 的 当前 值 和 在 客户 S 上 的 值 相同 ， failure(S) 表 示 open 和 
close 操 作 并 没有 在 S 上 执行 (故障 可 以 被 客户 C 检 测 到 )， 同时 updated(F,S) 表 示 客 户 C 的 文件 F 的 值 
已 经 传播 到 服务 器 S 上 。 

对 AFS-2 来 说 ， 对 open 操 作 的 传播 保证 相对 要 弱 一 些 ， 同时 相应 的 形式 化 表示 要 复杂 一 些 。 这 
是 因为 客户 可 能 会 打开 一 个 旧 的 拷贝 ， 而 该 文件 已 被 其 他 客户 更 新 过 了 。 当 因为 网 络 故 障 等 原因 ， 
回调 信息 丢失 时 ， 这 种 情况 就 有 可 能 发 生 。 但 系统 设置 了 一 个 客户 不 知道 文件 最 新 版 的 最 大 时 间 T。 
因此 ， 我 们 有 下 列 保证 : 

在 成 功 的 open 操 作 后 : latest(F,S,0) 
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or(lostCallback(S,T) and inCache(F) and latest(F,S,T)) 

其 中 ，latest(F,S,T) 表 示 客 户 所 见 到 的 F 的 文件 拷贝 的 过 期 时 间 不 会 超过 Ts ，lostCallback(S,T) 
表示 在 最 近 的 Ts 时 间 内 从 S 传 递 到 C 的 回调 信息 已 经 入 失 了 ，inCache(F) 表 示 在 open 操作 前 客户 C 的 
缓存 中 就 包含 文件 FE。 以 上 这 些 形式 化 表示 说 明 , 或 者 在 open 操 作 后 客户 C 缓 存 的 文件 F 的 拷贝 是 系 
统 中 的 最 新 版 本 ， 或 者 回调 信息 被 丢失 (因为 通信 故障 ) 而 不 得 不 使 用 已 在 缓存 中 的 文件 版 本 ， 
二 者 必 居 其 一 :被 缓存 的 文件 FE 的 拷贝 的 过 期 时 间 不 会 超过 T 秒 。(T 是 一 个 系统 常量 ， 它 表示 回调 
承诺 必须 被 更 新 的 时 间 间 隔 。 在 大 多 数 的 系统 安装 中 ，T 的 值 被 设置 为 10min.) 

为 了 实现 这 一 目标 ， 即 提供 大 范围 的 与 UNIX 兼 容 的 分 布 式 文件 服务 ，AFS 并 设 有 提供 进一步 
的 控制 并 发 更 新 的 机 制 。 上 述 缓存 一 致 性 算法 只 在 open 操 作 和 close 操 作 中 起 作用 。 一 旦 文件 被 打 
开 ， 客 户 可 以 在 不 知道 其 他 工作 站 进程 的 情况 下 以 任意 方式 访问 和 更 新 本 地 拷贝 。 当 文件 被 关闭 
后 ， 文 件 拷贝 返回 到 服务 器 ， 取 代 服 务 器 上 的 当前 版 本 。 

如 果 在 不 同 工 作 站 上 的 客户 对 同一 文件 并 发 执行 open、write 和 close 操 作 ， 除 了 最 后 close 操 作 
的 更 新 结果 外 ， 其 他 更 新 结果 通常 会 丢失 (没有 报错 )。 如 果 客 户 要 实现 并 发 ， 那 么 必须 独立 实现 
并 发 控制 。 另 一 方面 ， 当 同一 工作 站 上 的 两 个 客户 进程 打开 一 个 文件 时 ， 它 们 共享 同一 个 缓存 文 
件 拷贝 ， 并 且 依照 UNIX 方 式 (一 块 接 一 块 ) 更 新 文件 。 

尽管 更 新 语义 随 并 发 进程 访问 文件 的 位 置 不 同 而 不 同 ， 并 且 和 标准 的 UNIX 文 件 系统 提供 的 语 
义 并 不 完全 相同 ， 但 它 已 经 足以 使 大 部 分 已 有 的 UNIX 程 序 正 确 运 行 了 。 


8.4.3 其 他 方面 


UNIX 内 核 修改 ”我 们 注意 到 ，Vice 服 务 器 是 运行 在 服务 器 上 的 用 户 级 进程 ， 并 且 服 务 器 主机 
专用 于 提供 AFS 服 务 。AFS 主 机 中 的 UNIX 内 核 被 修改 过 ， 这 样 Vice 可 以 用 文件 句柄 而 不 是 UNIX 文 
件 描述 符 执行 文件 操作 。 这 是 AFS 唯 一 需要 的 内 核 修改 。 如 果 Vice 不 维护 任何 客户 状态 (如 文件 描 
述 符 )， 这 种 修改 是 必须 的 。 

位 置 数据 库 ”每 一 个 服务 器 包含 一 个 位 置 数据 库 的 拷贝 ， 用 于 将 着 名 映射 到 服务 器 。 当 一 个 
卷 被 移动 后 ， 该 数据 库 会 出 现 暂时 的 不 精确 ， 但 这 是 无 害 的 ， 因 为 新 的 信息 存储 在 此 卷 被 移动 前 
所 在 的 服务 器 上 。 

线程 Vice 和 Venus 的 实现 使 用 非 预 先 抢 占 性 线程 包 ， 使 客户 (其 中 数 个 用 户 进程 可 能 同时 访 
问 文件 ) 和 服务 器 能 并 行 地 处 理 请 求 。 在 客户 端 ， 描 述 缓存 内 容 和 文件 卷 数 据 库 的 表 被 存放 在 内 
存 中 ， 供 Venus 线程 共享 。 

只 读 复制 ”经 常 执 行 读 操作 但 很 少 被 修改 的 文件 卷 ， 例 如 UNIX 包 含 系统 命令 的 /bin 和 /usr/bin 
目 东 和 包含 手册 信息 的 /man 目 录 ， 可 以 作为 只 读 卷 拷贝 到 多 个 服务 器 上 。 这 样 ， 系 统 中 只 存在 一 
个 读 写 拷贝 ,所 有 的 更 新 都 放 在 此 拷贝 上 。 在 更 新 操作 后 ， 由 一 个 显 式 的 操作 过 程 将 改变 传播 到 
每 个 只 读 拷 贝 上 。 在 位 置 数据 库 中 ， 对 于 被 复制 的 卷 的 位 置 数 据 库 ， 其 条 目 是 一 对 多 的 形式 ， 并 
且 可 根据 服务 器 负载 和 访问 能 力 为 每 一 个 客户 请 求 选择 服务 器 。 

批量 传输 AFS 以 64KB 的 文件 块 形式 在 客户 和 服务 器 之 间 传 输 文件 。 使 用 大 的 数据 包 有 助 于 
减少 网 络 延 迟 、 提 高 性 能 。 这 样 ，AFS 的 设计 可 以 优化 对 网 络 的 使 用 。 

部 分 文件 缓存 ” 当 应 用 程序 只 需要 读 文 件 的 一 小 部 分 时 仍然 将 整个 文件 传输 到 客户 端 ， 这 种 
方式 显然 是 低 效率 的 。AFS v3 解 决 了 这 个 问题 ， 在 保留 了 AFS 协 议 的 一 致 性 语义 和 其 他 特征 的 同 
时 ， 人 允许 文件 数据 以 64KB 块 的 形式 传输 以 及 缓存 。 

性 能 AFS 的 主要 目标 是 实现 可 伸缩 性 ， 所 以 它 特别 关心 在 大 量 用 户 环 境 中 的 性 能 。Howard 
等 人 [1988] 详 细 介 绍 了 性 能 比较 度量 结果 ， 它 使 用 了 专门 的 AFS 基 准 测 试 ， 该 基准 测试 后 来 被 广泛 
应 用 于 分 布 式 文件 系统 的 度量 。 不 出 所 料 ， 缓 存 整个 文件 和 回调 协议 极 大 减少 了 服务 器 的 负载 。 
Satyanarayanan[1989a] 解 释 说 ， 在 运行 标准 基准 测试 的 具有 8 个 客户 节点 的 系统 中 ， 服 务 器 的 负载 
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是 40%， 而 在 运行 同样 基准 测试 的 NFS 系 统 中 ， 服 务 器 的 负载 是 100%。Satyanarayanan 将 性 能 的 
提高 归功 于 AFS 使 用 回调 来 通知 客户 文件 更 新 以 减少 服务 器 负载 的 方式 ， 而 在 NFS 中 ， 系 统 采用 超 
时 机 制 检 查 缓存 在 客户 端的 页 面 的 有 效 性 。 

广 域 支 持 ”AFS v3 支持 多 个 管理 单元 ， 每 一 单元 有 自己 的 服务 器 、 客 户 、 系 统管 理 员 和 用 户 。 
每 个 单元 是 一 个 完全 自治 的 环境 ， 但 这 些 协作 的 单元 可 以 共同 为 用 户 提供 一 个 统一 的 、 无 颖 的 文 
件 名 空间 。Transarc 公 司 广泛 部 署 了 此 类 系统 ， 并 且 发 表 了 性 能 使 用 模式 调查 结果 [Spasojevic and 
Satyanarayanan 1996]。 这 一 系统 已 安装 在 超过 150 个 节点 的 超过 1000 台 服务 器 上 。 调 查 结果 表明 ， 
在 一 个 大 约 有 200GB 数 据 的 32 000 个 文件 卷 的 系统 中 ， 缓 存 命中 率 在 96% ~ 98% 之 间 。 


8.5 最 新 进展 


NFS 和 AFS 出 现 以 后 ， 分 布 式 文件 系统 的 设计 又 取得 了 一 些 进 展 。 在 这 一 节 中 ， 我 们 将 介绍 在 
改善 传统 分 布 式 文件 系统 的 性 能 、 可 用 性 和 可 伸缩 性 方面 的 一 些 进 展 。 我 们 将 在 本 书 的 其 他 章节 
介绍 一 些 更 有 影响 的 进展 ， 包 括 在 Bayou 和 Coda 系 统 中 ， 通 过 维持 读 写 文件 集 系 统 副 本 的 一 致 性 来 
支持 断 连 和 高 可 用 性 (参见 14.4.2 节 和 14.4.3 节 )， 以 及 在 Tiger 视 频 文件 服务 器 系统 中 保证 实时 传 
输 数 据 的 质量 的 高 伸缩 性 的 体系 结构 (参见 17.6 节 ) 。 

NFS 的 改进 ”一些 研究 项 目 已 经 解决 了 单个 拷贝 的 更 新 语义 问题 ， 它 们 扩展 了 NFS 协 议 使 其 
包括 open 和 close 操 作 并 加 入 回调 机 制 使 服务 器 能 通知 包含 失效 缓存 条 目的 客户 。 下 面 将 介绍 其 中 
的 两 方面 工作 。 它 们 的 结果 说 明 : 在 可 以 容忍 的 复杂 度 和 通信 开销 下 ， 可 以 采用 这 些 改进 。 

Sun 公 司 和 其 他 NFS 开 发 者 最 近 致 力 于 使 NFS 服 务 器 更 易 访问 并 使 用 在 广域网 上 。 尽 管 Web 服 
务 器 支持 的 HTTP 协 议 提供 了 有 效 的 和 高 伸缩 性 的 文件 方法 ， 以 使 整个 文件 可 供 因特网 上 每 个 用 户 
使 用 ,但 它 不 适用 于 和 需要 访问 大 文件 或 更 新 部 分 文件 的 应 用 程序 。WebNFS 的 开发 (将 在 下 面 介 
绍 ) 使 因特网 内 的 任 一 地 点 的 应 用 程序 成 为 NFS 服 务 器 的 客户 成 为 可 能 (通过 直接 使 用 NFS 协 议 
而 不 是 间接 地 通过 内 核 模 块 的 方式 )。 这 种 方式 和 合适 的 支持 Java 和 其 他 网 络 编程 语言 的 库 一 起 ， 
提供 了 实现 直接 共享 数据 的 因特网 应 用 的 可 能 性 ， 例 如 多 用 户 的 游戏 或 者 具有 大 规模 动态 数据 库 
的 客户 端 。 

达到 单个 描 贝 更 新 语义 : NFS 的 无 状态 服务 器 结构 提高 了 NFS 的 健壮 性 ， 并 使 NFS 更 容易 实现 ， 
但 它 偏离 了 精确 的 单个 拷贝 更 新 语义 (不 保证 多 个 客户 对 同一 文件 并 发 写 的 结果 ， 与 在 一 个 UNIX 
系统 中 多 个 进程 并 发 写本 地 文件 的 结果 完全 相同 ) 。 同 时 它 也 未 使 用 回调 通知 客户 文件 发 生 了 改变 ， 
这 样 就 导致 客户 为 了 检查 文件 是 否 改变 了 而 频繁 地 调用 getattr 操 作 。 

有 两 个 已 开发 的 研究 系统 解决 了 这 些 缺 陷 。Spritely NFS[Srinivasan and Mogul 1989, Mogul 
1994] 是 为 Berkeley 的 Sprite 分 布 式 操作 系统 [Nelson et al. 1988] 开 发 的 文件 系统 。 Spritely NFS 在 其 
NFS 协 议 的 实现 中 加 入 了 open 和 close 调 用 。 当 本 地 用 户 级 进程 对 服务 器 上 的 文件 的 执行 打开 操作 
时 ， 客 户 模 块 必须 发 送 -- 个 open 操 作 ，open 操 作 的 参数 指定 了 操作 模式 ( 读 、 写 或 两 者 都 有 ) 以 
及 当前 有 打开 的 文件 (进行 读 或 写 ) 的 本 地 进程 数 。 同 样 ， 当 本 地 进程 关闭 远程 文件 时 ， 它 必须 
给 服务 器 发 送 一 个 包含 读 写 更 新 计数 的 close 操 作 。 服 务 器 将 这 一 数字 和 客户 的 IP 地 址 和 端口 号 一 
起 记录 在 一 个 打开 文件 表 中 。 

当 服 务 器 接收 到 一 个 open 调 用 时 ， 它 通过 查找 打开 文件 表 找 出 所 有 打开 同样 文件 的 客户 ， 并 
且 将 回调 信息 发 送 给 这 些 客户 ， 指 导 它 们 修改 其 缓存 策略 。 如 果 该 open 操 作 指定 的 是 写 模式 ， 并 
且 有 其 他 客户 以 写 模式 打开 此 文件 时 ， 这 一 操作 便 会 失败 。 在 一 个 客户 写 文件 时 ， 系 统 会 通知 其 
他 以 读 模 式 打开 文件 的 客户 ， 使 客户 缓存 中 的 文件 拷贝 失效 。 

对 于 一 个 以 读 模式 的 打开 文件 的 客户 ， 服 务 器 会 将 回调 消息 发 送 给 正在 对 此 文件 执行 写 操作 
的 客户 ， 通 知 它 停止 缓存 (即使 用 严格 的 写 透 模式 )， 并 且 它 会 通知 所 有 读 此 文件 的 客户 停止 缓存 
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此 文件 (这 样 所 有 的 本 地 读 调用 都 会 发 出 一 个 对 服务 器 的 请 求 )。 

这 种 方法 导致 维持 UNIX 的 单个 拷贝 更 新 语义 的 文件 服务 需要 在 服务 器 上 记录 一 些 与 客户 相关 
的 信息 。 在 处 理 对 缓存 文件 的 写 操作 方面 ， 效 率 也 有 所 提高 。 如 果 服 务 器 在 其 非 持久 的 存储 器 中 
保存 与 客户 相关 的 状态 ， 这 就 易 受 服务 器 崩溃 的 影响 。Spritely NFS 实 现 了 一 个 恢复 协议 ， 通 过 查 
询 最 近 在 服务 器 上 打开 文件 的 客户 列表 来 恢复 整个 打开 文件 表 。 这 是 基于 一 种 “悲观 ”策略 ， 即 
客户 列表 存储 在 磁盘 上 ， 并 且 很 少 被 更 新 一 一 可 能 它 包含 的 客户 比 在 系统 崩溃 时 打开 文件 的 客户 
多 。 出 故障 的 客户 可 能 也 在 打开 文件 表 中 ， 但 当 该 客户 重启 时 ， 它 会 被 删除 。 

当 将 Spritely NFS 和 NFS v2 进 行 比较 时 ， 前 者 的 性 能 有 了 一 定 程度 的 改进 。 这 源 于 对 写 文件 组 
存 的 改进 。NFS v3 至 少 达到 了 同样 程度 的 改进 ， 但 Spritely NFS 项 目的 结果 表明 在 不 明显 损失 性 能 
的 情况 下 实现 单个 拷贝 更 新 语义 是 可 能 的 ， 虽 然 这 样 做 客户 和 服务 器 模块 比较 复杂 ， 并 且 需 要 一 
个 恢复 机 制 以 便 在 服务 器 崩溃 后 能 够 恢复 原 有 状态 。 

NQNFS: NQNFS (Not Quite NFS) 系统 [Macklem 1994] 的 目标 和 Spritely NFS 类 似 一 一 在 
NFS 协 议 中 加 入 更 精确 的 缓存 一 致 性 并 且 通 过 更 好 地 使 用 缓存 来 改进 性 能 。NQNFS 服 务 器 维持 与 
Spritely NFS 相 似 的 关于 客户 打开 文件 的 状态 ,但 它 使 用 租借 (参见 5.2.6 节 ) 处 理 服务 器 崩溃 后 的 
恢复 。 服 务 器 为 客户 持 有 打开 文件 的 租借 期 设置 一 个 上 限 。 如 果 客 户 希 望 在 超出 此 时 间 后 继续 持 
有 该 打 开 文件 ， 它 必须 续 租 。 当 发 生 写 请 求 时 ， 系 统 使 用 与 Spritely NFS 相 似 的 回调 机 制 来 通知 客 
户 刷新 其 缓存 ， 但 如 果 客 户 没有 应 答 ， 服 务 器 在 响应 新 的 写 请 求 之 前 会 一 直 等 待 ， 直 到 租借 期 满 
为 止 。 

WebNFS: Web 和 Java applet 的 出 现 使 NFS 开 发 小 组 和 其 他 人 认识 到 ， 一些 因 特 网 应 用 可 以 直 
接 访问 NFS 服 务 器 ， 这 样 做 不 会 产生 与 模拟 标准 的 NFS 客 户 中 包含 的 UNIX 文 件 操作 相关 的 开销 。 

WebNFS (在 RFCo2055 和 2056 中 描述 [Callaghan 1996a, 1996b]) 的 目标 是 使 Web 浏 览 器 、 
Java 程 序 和 其 他 应 用 程序 与 NFS 服 务 器 直接 进行 交互 来 访问 文件 ， 这 些 文件 是 使 用 公共 文件 身 柄 
访问 相对 于 公共 根 目录 的 文件 而 被 “公开 的 ”的 。 这 种 模式 避免 了 安装 服务 和 端口 映射 服务 〈 见 
第 5 章 )。WebNFS 客 户 通 过 一 个 约定 的 端口 号 (2049) 与 服务 器 交互 。 为 了 根据 路 径 名 访问 文件 ， 
它 使 用 一 个 公共 文件 句柄 发 出 一 个 lookup 请 求 。 该 公共 文件 句柄 有 一 个 约定 的 值 ， 服 务 器 上 的 虚 
拟 文件 系统 专门 解释 这 个 值 。 由 于 广域网 的 高 延迟 性 ， 系 统 使 用 多 组 件 的 lookup 操 作 来 查找 请 求 
中 的 多 部 分 路 径 。 

这 样 在 较 少 的 安装 开销 下 ，WebNFS 使 客户 能 够 访问 远程 NFS 服 务 器 上 的 文件 。 它 也 提供 了 访 
问 控制 和 认证 、 但 在 许多 情况 下 ， 客 户 只 需要 读 取 公 共 文 件 ， 在 这 些 情况 下 ， 认 证 选项 可 以 关闭 。 
在 支持 WebNFS 的 NFS 服 务 器 上 ， 为 了 读 一 个 文件 的 某 一 部 分 ， 系 统 需要 建立 一 个 TCP 连 接 和 两 个 
RPC 调 用 一 一 一 个 多 组 件 的 lookup 操 作 和 一 个 read 操 作 。NFS 协 议 不 限制 所 读数 据 块 的 大 小 。 

例如 ， 一 个 天 气 服 务 可 以 在 它 的 NFS 服 务 器 上 公开 一 个 文件 ， 该 文件 包含 一 个 需要 经 常 更 新 的 
天 气 数据 的 数据 库 ， 它 的 URL 为 ; 

nfs://data.weather.gov/weatherdata/global.data 

一 个 显示 气象 图 的 交互 式 WeatherMap 客 户 可 以 用 Java 或 其 他 支持 WebNFS 过 程 库 的 语言 构建 。 
客户 只 需要 读 取 weatherdata/global.data 文 件 中 的 部 分 信息 就 可 以 构建 用 户 所 需 的 气象 图 ， 而 使 用 
HTTP 访 问 天 气 数据 的 类 似 应 用 程序 需要 将 整个 数据 库 传输 给 客户 ， 或 者 需要 使 用 专门 服务 器 程序 
来 获得 所 需 的 数据 。 

NEFS 第 4 版 : 在 本 书 出 版 时 ，NFS 协 议 的 新 版 本 正在 开发 中 。RFC 2624[Shepler 1999] 和 Brent 
Callaghan 的 书 [Callaghan 1999] 中 都 描述 了 NFS 第 4 版 的 和 目标。 和 WebNFS 相 似 ， 它 的 目标 是 使 NFS 能 
适用 于 广域网 和 因特网 的 应 用 。 它 将 包含 WebNFS 的 特征 ， 但 它 是 个 新 的 协议 ， 有 可 能 在 WebNFS 
的 基础 上 做 更 大 的 改进 。(WebNFS 对 改变 服务 器 有 一 定 权限 ， 它 并 没有 在 协议 中 加 入 新 的 操作 ,。) 
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开发 NFS v4 的 工作 组 希望 利用 在 过 去 十 几 年 中 文件 服务 器 设计 领域 的 一 些 研究 成 果 ， 例 如 使 
用 回调 或 租借 机 制 来 维持 一 致 性 、NFS v4 希望 通过 人 允许 文件 系统 透明 地 从 一 个 服务 器 转移 到 另 一 
个 服务 器 来 支持 服务 器 故障 后 的 即时 恢复 。 通 过 使 用 代理 服务 器 (代理 服务 器 的 使 用 方式 与 在 
Web 上 的 使 用 方式 相似 ) 来 改进 可 伸缩 性 。 

AFS 的 改进 ”我们 已 经 提 到 过 DCE/DFS， 它 是 一 种 包含 在 开放 软件 基金 会 的 分 布 式 计算 环境 
中 的 分 布 式 文件 系统 [www.opengroup.org]， 基 于 Andrew 文 件 系统 。DCE/DFS 的 设计 超越 了 AFS， 
特别 是 在 保证 缓存 一 致 性 的 方法 方面 。 在 AFS 中 ， 仅 当 服 务 器 接收 到 对 已 经 更 新 的 文件 的 close 操 
作 请 求 时 ， 系 统 才 生 成 回调 。DFS 使 用 一 种 与 Spritely NFS 和 NQNFS 相 似 的 策略 在 文件 被 更 新 时 生 
成 回调 。 为 了 更 新 一 个 文件 ， 客 户 必须 从 服务 器 获得 一 个 write 标 记 ， 用 于 指定 允许 客户 更 新 的 文 
件 区 域 。 在 请 求 write 标 记 后 ， 具 有 同一 文件 拷贝 (用 于 读 ) 的 客户 会 收 到 撤回 回调 。 可 使 用 其 他 
类 型 的 标识 获得 缓存 文件 属性 和 其 他 元 数据 的 一 致 性 。 所 有 标记 都 有 与 之 关联 的 生命 期 ， 在 生命 
期 满 以 后 ， 客 户 必 须 续 延 其 标识 的 生命 期 。 

存储 组 织 的 改进 ”关于 存储 在 磁盘 上 的 文件 数据 的 组 织 的 研究 有 很 大 的 进展 。 分 布 式 文件 系 
统 需 要 支持 更 多 的 负载 ， 具 有 更 高 的 可 靠 性 ， 这 种 需求 推动 了 这 方面 的 研究 工作 ， 也 导致 了 文件 
系统 性 能 的 大 幅度 提高 。 这 些 研 究 工 作 的 主要 成 果 如 下 ， 

廉价 磁盘 的 元 余 阵 列 (RAID) : 这 是 一 种 存储 模式 [Patterson et al. 1988 ，Chen et al. 1994] ， 
其 中 数据 被 分 解 成 固定 大 小 的 块 ， 并 存储 在 跨越 多 个 磁盘 的 “条 带 ” 上 ， 它 们 和 元 祭 的 错误 更 正 
代码 存储 在 一 起 ， 更 正 代 码 用 于 在 磁盘 故障 时 完全 重建 数据 块 ， 系 统 可 以 继续 操作 数据 。RAID 也 
比 单个 磁盘 的 性 能 好 ， 这 是 因为 组 成 块 的 条 带 可 以 被 并 发 地 读 写 。 

日 志 结 构 的 文件 存储 (LFS)， 和 Spritely NFS 一 样 ， 这 项 技术 源 于 Berkeley Sprite 分 布 式 操作 
系统 项 目 [Rosenblum and Ousterhout 1992]。 他 们 注意 到 ， 在 文件 服务 器 中 用 于 文件 缓存 的 主 存 越 
多 ， 相 应 缓存 命中 率 越 高 ， 读 文件 操作 的 性 能 越 好 ， 但 是 写 文件 性 能 仍然 没有 提高 。 这 源 于 将 单 
个 数据 块 写 入 磁盘 以 及 更 新 元 数据 块 (包含 文件 属性 和 指向 文件 中 数据 块 的 指针 向 量 ， 例 如 i 节点) 
操作 的 延迟 。 

LEFS 的 解决 方案 是 在 内 存 积累 若干 写 操作 ， 然 后 将 它们 写 到 划分 为 大 的 、 连 续 的 、 定 长 的 段 的 
磁盘 上 。 这 些 段 被 称 为 日 志 段 ， 因 为 数据 和 元 数据 块 严格 地 按照 被 更 新 的 顺序 存储 。 一 个 日 志 段 
的 大 小 为 1MB 或 更 大 ， 存 储 在 一 个 磁道 上 ， 它 去 掉 了 与 写 单个 块 相关 的 磁盘 头 延迟 。 被 更 新 数据 
的 最 新 拷贝 和 元 数据 块 总 是 被 写 ， 因 此 要 求 维护 一 个 指向 节点 的 动态 映射 。 系 统 还 要 回收 废弃 的 
块 室 间 ， 其 方法 是 将 “ 活 ” 的 块 放置 在 一 起 以 便 为 日 志 段 的 存储 留 出 连续 的 空闲 空间 。 后 一 种 操 
作 是 比较 复杂 的 ， 它 由 一 个 称 为 cleaner 的 组 件 以 后 台 活 动 的 方式 执行 。 根 据 仿 真 的 结果 ， 现 在 已 
开发 了 一 些 比较 复杂 的 cleaner 算 法 。 

尽管 有 这 些 额外 的 开销 ， 但 整个 系统 的 性 能 改进 还 是 比较 显著 的 ， Rosenblum 和 Ousterhout 测 
量 得 到 写 的 吞吐 量 高 达 可 用 带宽 的 70%， 而 在 传统 的 UNIX 文 件 系统 中 ， 这 一 数字 小 于 10%。 日 志 
结构 也 简化 了 服务 器 崩溃 后 的 恢复 过 程 。Zebra 文 件 系 统 [Hartman and Ousterhout] 作 为 最 初 的 LFS 
的 后 继 成 果 ， 将 结构 化 日 志 的 写 和 分 布 式 RAID 方 法 结合 起 来 日 志 段 被 划分 为 包含 错误 更 正 代 
码 的 节 并 且 被 写 到 不 同 网 络 节 点 的 磁盘 上 。 在 写 大 文件 时 ， 其 性 能 是 NFS 系 统 的 4 一 5 倍 ， 在 与 小 文 
件 时 ， 性 能 提高 则 不 那么 明显 。 

新 的 设计 方法 ”高 性 能 交换 网 络 〈 例 如 ATM 和 高 速 交 换 以 太 网 ) 的 开发 使 研究 人 员 注意 研究 
如 何在 有 许多 节点 的 企业 内 部 网 上 ， 以 高 伸缩 性 和 高 容错 性 的 方式 提供 分 布 式 文件 数据 的 持久 性 
存储 系统 ， 把 管理 元 数据 和 客户 请 求 服务 的 职责 与 读 写 数 据 的 职责 相 分离 。 下 面 将 概述 这 方面 的 
两 项 进展 。 

这 些 方 法 比 我 们 在 前 面 介绍 的 集中 式 服务 器 方法 有 更 好 的 伸缩 性 。 它 们 通常 要 求 合作 提供 服 
务 的 计算 机 之 间 有 高 级 别 的 信任 度 ， 因 为 它们 通常 使 用 低级 别 的 协议 在 持 有 数据 的 节点 间 通 信 
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(有 些 类 似 于 一 个 “虚拟 磁盘 ”的 API) 。 因 此 它们 的 范围 常常 只 限于 单个 本 地 网 络 。 

xFS: 美国 加 州 大 学 伯克利 分 校 的 一 个 小 组 设计 了 一 个 无 服务 器 网 络 文件 系统 体系 结构 并 开发 
了 一 个 原型 ， 即 xFSIAnderson et al.1996]。 有 3 个 因素 促成 了 该 原型 的 实现 : 

1) 快速 交换 局 域 网 使 本 地 网 上 的 多 个 文件 服务 器 可 以 并 发 地 向 客户 传输 大 量 的 数据 。 

2) 不 断 增长 的 访问 共享 数据 的 需求 。 

3) 基于 集中 式 文件 服务 器 的 一 些 限制 。 

关于 第 3 点 ， 他 们 提出 这 样 一 个 事实 ， 构建 高 性 能 的 NFS 服 务 器 需要 相对 昂贵 的 硬件 ， 包 括 多 
个 CPU、 磁 盘 和 网 络 控制 器 ， 并 且 存 在 划分 文件 空间 的 限制 一 一 需要 将 不 同文 件 集 系 统 的 共享 文 
件 安装 到 不 同 的 服务 器 上 。 他 们 还 指出 ， 一 个 中 心 式 的 服务 器 系统 容易 受 单 点 故障 的 影响 。 

xFS 是 “无 服务 器 ”的 ， 意 味 着 它 在 单个 文件 的 粒度 上 将 文件 服务 器 处 理 责任 分 散 到 本 地 网 的 
可 用 的 计算 机 上 。 存 储 责任 独立 于 管理 和 其 他 服务 责任 进行 分 布 ，xFS 实 现 了 一 个 软件 的 RAID 存 
储 系统 ， 它 将 文件 数据 分 散 存 储 到 多 个 计算 机 磁盘 上 (从 这 个 意义 上 说 ， 它 是 第 17 章 将 描述 的 
Tiger 视 频 文件 系统 的 先驱 ) ， 它 使 用 了 和 Zebra 文 件 系统 相似 的 结构 化 日 志 技术 完成 分 散 存 储 。 

管理 每 个 文件 的 责任 可 以 被 分 配 到 任意 一 个 支持 xFS 服 务 的 计算 机 上 。 通 过 被 复制 到 每 一 个 客 
户 和 服务 器 上 的 岂 做 管理 映射 表 的 一 个 元 数据 结构 可 以 实现 这 一 策略 。 文 件 标识 符 包含 一 个 作为 
此 管理 器 映射 表 索 引 的 域 ， 并 且 此 映射 表 中 的 每 一 个 条 目 都 标识 了 当前 负责 管理 相应 文件 的 计算 
机 。 其 他 一 些 元 数据 结构 用 来 管理 结构 化 日 志文 件 存储 和 条 带 化 磁盘 存储 ， 它 们 和 其 他 结构 化 日 
志和 RAID 存 储 系统 中 的 元 数据 结构 相似 。 

已 经 构造 了 一 个 xFS 的 初步 原型 ， 并 且 进 行 了 性 能 评估 。 进 行 性 能 评估 时 ， 这 一 原型 还 是 不 完 
善 的 一 一 崩 澳 恢复 还 没有 完全 实现 并 且 结 构 化 日 志 的 存储 方案 也 缺少 一 个 cleaner 模 块 来 恢复 被 废 
弃 的 日 志和 压缩 文件 所 占据 的 空间 。 

对 这 一 初步 原型 进行 性 能 评估 时 ， 使 用 的 是 连接 在 高 速 网 络 上 的 32 个 单 处 理 器 和 双 处 理 器 的 
Sun SPARC 工 作 站 。 评 测 时 对 运行 在 32 个 工作 站 上 的 xFS 和 运行 在 双 处 理 器 Sun SPARC 工 作 站 上 的 
NFS 和 AFS 进 行 了 比较 。 具 有 32 个 服务 器 的 xFS 的 读 写 带 宽 是 运行 在 一 个 双 处 理 器 上 的 NFS 和 AFS 
的 读 写 带宽 的 10 倍 左右 。 当 使 用 标准 的 AFS 基 准 测 试 时 ，xFS 和 NFS、AFS 的 性 能 差距 并 不 明显 。 
总 之 ,结果 表明 : xFS 的 高 度 分 布 式 处 理 和 存储 体系 结构 为 分 布 式 文件 系统 获得 更 好 的 可 伸缩 性 提 
供 了 一 个 有 希望 的 方向 。 

Frangipani: Frangipani 是 在 数字 系统 研究 中 心 (现在 是 Compaq 系 统 研 究 中 心 ) 开发 和 部 署 的 
高 可 伸缩 性 的 分 布 式 系统 [Thekkath et al. 1997]。 它 的 目标 和 xFS 十 分 相似 ， 并 且 和 xFS 一 样 ， 其 设 
计 目 的 也 是 将 持久 存储 责任 和 其 他 文件 服务 活动 相 分 离 。 但 Frangipani 的 服务 被 划分 为 完全 独立 的 
两 个 层次 。 其 底层 由 Petal 分 布 式 虚拟 磁盘 系统 [Lee and Thekkath 1996] 提 供 。 

Petal 为 交换 式 局 域 网 上 的 多 个 服务 器 磁盘 提供 了 一 个 分 布 式 的 虚拟 磁盘 抽象 。 这 一 虚拟 磁盘 
抽象 通过 存储 数据 的 多 个 复 本 来 应 付 大 多 数 的 硬件 和 软件 错误 ， 它 还 通过 对 数据 重 定位 来 自动 平 
衡 服 务 器 上 的 负载 。UNIX 磁 盘 驱 动 器 通过 标准 的 块 输入 输出 操作 访问 Petal 虚 拟 磁 盘 ， 所 以 Petal 虚 
拟 磁盘 可 以 支持 大 多 数 文件 系统 。Petal 增 加 了 10% ~ 100% 的 磁盘 访问 延迟 ， 但 缓存 策略 可 以 使 其 
读 写 吞吐 量 至 少 和 底层 的 磁盘 驱动 一 样 好 。 

Frangipani 服 务 器 模块 运行 在 操作 系统 内 核 中 。 和 xFS 中 一 样 ， 管 理 文件 和 相关 任务 的 职责 
(包括 对 客户 提供 的 文件 锁 服 务 ) 被 动态 地 分 配给 主机 ， 并 且 所 有 的 机 器 看 到 的 是 一 个 统一 的 文件 
名 空间 ， 它 们 可 以 一 致 地 (具有 近似 的 单个 拷贝 语义 ) 访问 共享 的 可 被 更 新 的 文件 。 数 据 以 结构 
化 日 志和 条 带 格式 存储 在 Petal 虚 拟 磁盘 存储 中 。Petal 碱 轻 了 Frangipani 管 理 物理 磁盘 空间 的 需要 ， 
从 而 可 以 实现 一 个 较 简 单 的 分 布 式 文件 系统 。Frangipani 可 以 模拟 几 种 已 有 的 文件 服务 的 服务 接口 ， 
包括 NFS 和 DCE/DFS 。 Frangipani 的 性 能 至 少 和 UNIX 文 件 系 统 的 Digital 实 现 一 样 好 。 
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8.6 小 结 


分 布 式 文件 系统 的 主要 设计 问题 包括 : 

"有 效 地 使 用 客户 缓存 以 便 获得 和 本 地 文件 系统 相同 甚至 更 好 的 性 能 。 

* 当 文件 更 新 时 ， 维 护 文件 的 多 个 客户 拷贝 的 一 致 性 。 

* 在 客户 和 服务 器 发 生 故 障 后 进行 恢复 。 

* 提高 读 写 不 同 大 小 文件 的 吞吐 量 。 

* 可 伸缩 性 。 

分 布 式 文件 系统 在 有 组 织 的 计算 中 被 广泛 使 用 ， 它 们 性 能 的 提高 是 优化 的 目标 。NFS 包 含 一 个 
简单 的 无 状态 协议 ， 借 助 于 对 协议 的 细小 改进 、 优 化 的 实现 和 高 性 能 的 硬件 支持 ，NFS 一 直 保持 它 
在 分 布 式 文件 系统 技术 领域 的 统治 地 位 。 

AFS 显 示 了 一 种 相对 简单 的 体系 结构 的 可 行 性 ， 它 使 用 服务 器 状态 减 小 维护 客户 缓存 一 致 性 的 
开销 。AFS 在 许多 情况 下 的 性 能 好 于 NFS。 最 近 ，AFS 使 用 了 跨越 数 个 磁盘 的 数据 条 带 和 结构 化 日 
志 写 操作 ， 这 些 研究 进展 进一步 改进 了 AFS 的 性 能 和 可 伸缩 性 。 

当前 最 先进 的 分 布 式 文件 系统 具有 较 高 的 伸缩 性 ， 并 且 可 提供 跨越 本 地 和 广域网 的 优良 性 能 ， 
维护 单个 拷贝 文件 更 新 语义 ， 并 且 能 容错 和 从 故障 中 恢复 。 未 来 的 需求 包括 支持 经 常 有 断 连 操作 
的 移动 用 户 ， 支 持 自 动 重 集成 和 服务 质量 保障 ， 以 便 满足 持久 存储 和 传输 多 媒体 数据 流 以 及 其 他 
实时 数据 的 需要 。 第 15 章 和 第 17 章 将 介绍 这 些 需求 的 解决 办 法 。 


练习 

8.1 为 什么 在 平面 文件 服务 或 目录 服务 的 接口 中 没有 open 操 作 或 close 操 作 。 目 录 服 务 的 lookup 操 
作 和 UNIX 的 open 操 作 有 哪些 区 别 ? (第 334 页 ~ 第 336 页 ) 

8.2 请 列 出 使 用 模型 文件 服务 ， 客 户 模拟 UNIX 文 件 系 统 接口 的 方法 。 (第 334 页 ~ 第 336 页 ) 

8.3 写 出 一 个 PathLookup(Pathname, Dir) 一 UFID 过 程 ， 该 过 程 基于 模型 目录 服务 实现 对 UNIX 式 路 
径 名 的 Lookup 操 作 。 (第 334 页 ~ 第 336 页 ) 


8.4 为 什么 UFID 必 须 在 多 个 可 能 的 文件 系统 上 保持 唯一 ? 这 种 唯一 性 是 怎样 保证 的 ” (第 337 页 ) 
8.5 Sun NFS 在 何 种 程度 上 偏离 了 单个 拷贝 文件 更 新 语义 ? 请 构造 这 样 一 个 场景 ， 两 个 共享 一 个 文 
件 的 用 户 级 进程 可 以 在 一 个 UNIX 主 机 上 正常 操作 ， 但 当 它 们 运行 在 不 同 的 主机 上 时 便 会 出 现 
不 一 致 性 。 (第 344 页 ) 
8.6 Sun NFS 的 目标 是 通过 提供 一 个 独立 于 操作 系统 的 文件 服务 来 支持 异 构 的 分 布 式 系统 。 一 个 非 
UNIX 的 操作 系统 的 NFS 服 务 器 的 实现 者 必须 采取 的 关键 决策 是 什么 ?为 了 实现 NFS 服 务 器 ， 


其 底层 的 文件 系统 要 遵守 什么 限制 ? (第 338 页 ) 
8.7 NFS 客 户 模块 必须 拥有 哪些 代表 用 户 级 进程 的 数据 ? (第 338 页 ~ 第 339 页 ) 
8.8 使 用 图 8-9 中 的 NFS RPC 调 用 ， 分 别 给 出 在 不 使 用 和 使 用 一 个 客户 缓存 情况 下 ，UNIX 的 open() 
和 read(O) 系 统 调用 的 实现 。 (第 340 页 ， 第 344 页 ) 
8.9 请 解释 为 什么 NFS 的 最 初 实 现 中 的 RPC 接 口 可 能 是 不 安全 的 。NFS 3 通过 使 用 加 密 弥补 了 这 个 
安全 漏洞 。 窗 钥 是 如 何 保密 的 ? 窗 钥 的 安全 性 足够 吗 ? (第 340 页 ， 第 346 页 ) 
8.10 在 一 个 RPC 调 用 访问 一 个 硬 安装 的 文件 系统 上 的 文件 超时 后 ，NFS 客 户 模块 并 没有 将 控制 返 
回 到 发 出 调用 的 用 户 级 进程 ， 为 什么 ? (第 341 页 ) 
8.11 NFS 的 自动 安装 器 是 如 何 改进 NFS 的 性 能 和 可 伸缩 性 的 ? (第 343 页 ) 
8.12 解析 存储 在 NFS 服 务 器 上 的 包含 5 部 分 的 路 径 名 (例如 ，/usr/users/jim/code/xyz.c) 需要 多 少 
个 lookup 调 用 ? 执行 一 步 步 翻译 的 原因 是 什么 ? (第 342 页 ) 


8.13 为 了 在 基于 NFS 的 文件 系统 上 获得 访问 透明 性 ， 在 客户 计算 机 上 的 安装 表 的 配置 必须 满足 哪 
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8.14 


8.15 


8.16 
8.17 


些 条 件 ? (第 342 页 ) 
当 客 户 发 送 一 个 对 共享 文件 空间 内 的 一 个 文件 的 打开 和 关闭 系统 调用 时 ，AFS 如 何 获得 控 
制 ? (第 351 页 ) 
将 访问 本 地 文件 的 UNIX 更 新 语义 和 NFS 及 AFS 的 更 新 语义 进行 比较 。 在 什么 情况 下 ， 客 户 可 
以 意识 到 其 差异 ? (第 344 页 ， 第 355 页 ) 
AFS 是 如 何 处 理 回 调 信息 可 能 丢失 这 一 风险 的 ? | (第 355 页 ) 


AFS 设 计 的 什么 特点 使 得 它 比 NFS 有 更 大 的 可 伸缩 性 ? 假设 需要 加 入 服务 器 ， 那 么 其 伸缩 性 
有 什么 限制 ? 有 哪些 最 近 的 研究 成 果 提 供 了 更 好 的 可 伸缩 性 ? 
(第 347 页 ， 第 358 页 ， 第 362 页 ) 
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第 9 章 名 字 服 务 


本 章 将 名 字 服 务 作为 一 个 独特 的 服务 加 以 介绍 。 使 用 名 字 服 务 ， 客 户 进程 可 以 根据 名 字 获 取 
资源 或 对 象 的 地 址 等 属性 。 被 命名 的 实体 可 以 是 任何 类 型 ， 并 且 可 由 不 同 的 服务 管理 。 例 如 ， 名 
字 服 务 经 常用 于 保存 用 户 、 计 算 机 、 网 络 域 、 服 务 以 及 远程 对 象 的 地 址 以 及 其 他 细节 。 除 名 字 服 
务 外 ， 我 们 还 将 介绍 目录 服务 ， 它 可 以 根据 服务 的 属性 寻找 特定 服务 。 

我 们 将 以 因特网 域名 服务 为 例 来 介绍 名 字 服 务 的 设计 要 点 ， 如 服务 可 以 识别 的 名 字 空 间 的 结 
构 与 管理 、 名 字 服 务 支 持 的 操作 等 。 

我 们 还 将 探讨 名 字 服 务 的 实现 ， 其 中 涉及 名 字 解 析 过 程 中 的 名 字 服 务 器 导航 、 为 提高 性 能 与 
可 用 性 对 名 字数 据 进行 缓存 与 复制 等 。 

本 章 包含 两 个 实例 研究 : 全 局 名 字 服 务 (GNS) 与 X.500 目 录 服 务 (包括 LDAP)。 


9.1 简介 


在 分 布 式 系统 中 ， 名 字 用 于 指称 计算 机 、 服 务 、 远 程 对 象 、 文 件 ， 甚 至 用 户 等 各 种 资源 。 命 
名 在 分 布 式 系统 设计 中 其 实 是 一 个 非常 基本 的 问题 ， 尽 管 它 极 易 被 忽略 。 名 字 为 通信 和 与 资源 共享 
提供 了 便利 。 当 要 求 计算 机 系统 对 某 个 资源 进行 操作 时 ， 就 需要 一 个 名 字 。 例 如 ， 访 问 特定 Web 
页 面 需 要 一 个 以 URL 形 式 表示 的 名 字 。 只 有 在 所 有 进程 中 一 致 地 命名 了 计算 机 系统 管理 的 特定 资 
源 ， 进 程 才能 共享 这 些 资源 。 同 样 ， 在 分 布 式 系统 中 ， 只 有 用 户 能 够 给 出 对 方 名 字 ， 双 方才 能 互 
相通 信 ， 例 如 ， 电 子 地 邮件 址 就 是 一 种 名 字 。 

名 字 并 不 是 识别 对 象 的 唯一 方法 ， 描 述 性 的 属性 也 可 用 于 识别 对 象 。 有 时 候 ， 一 些 客户 并 不 
知道 它们 寻找 的 实体 的 名 称 ， 却 知道 一 些 描述 这 些 实体 的 信息 。 也 有 可 能 客户 需要 一 个 服务 (而 
不 是 实现 它 的 一 个 实体 )， 却 只 知道 该 服务 具有 的 一 些 特征 。 

本 章 将 介绍 名 字 服 务 以 及 目录 服务 的 相关 概念 。 在 分 布 式 系统 中 ， 名 字 服 务 可 向 客户 提供 被 
命名 对 象 的 数据 ， 而 目录 服务 提供 满足 某 个 描述 的 对 象 的 数据 。 我 们 将 以 域名 服务 (DNS)、GNS 
以 及 X.500 作 为 研究 实例 ， 来 描述 设计 与 实现 这 些 服务 的 方法 。 首 先 我 们 将 讨论 名 字 、 属 性 等 基本 


概念 。 


名 字 、 地 址 及 其 他 属性 

任何 请 求 访问 一 个 资源 的 进程 必须 拥有 该 资源 的 名 字 或 标识 符 。 文 件 名 (如 /etc/passwd )、 
URL (如 http://www.cdk4.net/) 以 及 因特网 域名 (如 dcs.qmw.ac.uk) 都 是 我 们 可 以 阅读 的 名 字 。 
而 标识 符 这 个 术语 有 时 指 只 有 程序 才能 够 解释 的 名 字 。 远 程 对 象 引用 以 及 NFS 文 件 句柄 都 是 标识 名 
的 例子 。 选 择 标识 符 的 一 个 重要 指标 是 软件 存储 与 查询 标识 的 效率 。 

Needhan[1993] 将 纯粹 的 名 字 与 其 他 名 字 区 分 开 来 。 纯 粹 的 名 字 仅 仅 是 未 解释 的 比特 模式 。 而 
非 纯 粹 的 名 字 则 包含 被 命名 的 对 象 的 信息 ， 特 别 地 ， 它 们 会 包含 对 象 的 位 置信 息 。 纯 粹 的 名 字 在 
使 用 前 必须 被 查找 。 与 纯粹 的 名 字 完 全 相反 的 是 对 象 的 地 址 ， 该 值 标识 对 象 的 位 置 而 不 是 对 象 本 
身 。 地 址 通常 可 用 于 访问 对 象 ， 但 对 象 有 时 会 被 重 定 位 ， 因 此 ， 地 址 并 不 足以 作为 标识 方法 。 例 
如 ， 用 户 的 电子 邮件 地 址 通常 会 因 用 户 在 不 同 的 组 织 或 使 用 不 同 的 因特网 服务 供应 商 而 改变 ， 因 
此 邮件 地 址 本 身 并 不 能 永久 地 指 代 特 定 用 户 。 

当 一 个 名 字 被 翻译 成 被 其 命名 的 资源 或 对 象 的 数据 时 ， 我 们 称 一 个 名 字 被 解析 ， 解 析 对 象 名 
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的 目的 是 为 了 在 对 象 上 调用 一 个 动作 。 名 称 与 对 象 之 间 的 关联 通常 称 为 绑 定 。 一 般 而 言 ， 名 字 被 
绑 定 到 被 命名 对 象 的 属性 ， 而 不 是 对 象 本 身 的 实现 。 属 性 是 对 象 特性 的 值 ， 与 分 布 式 系统 相关 的 
实体 的 一 个 重要 属性 就 是 对 象 的 地 址 。 例 如 : 

。DNS 将 域名 映射 到 主机 的 属性 上 : 主机 的 IP 地 址 、 条 目的 类 型 例如， 引用 的 是 邮件 服务 器 

还 是 其 他 主机 ) 以 及 主机 条 目的 有 效 时 间 。 

。X.500 目 录 服 务 用 于 将 人 名 映射 到 邮件 地 址 、 电 话 号 码 等 一 系列 属性 上 。 

。CORBA 名 字 服 务 与 交易 服务 将 在 第 20 章 介绍 。 名 字 服 务 将 一 个 远程 对 象 名 映射 到 它 的 远程 

对 象 引用 上 ， 而 交易 服务 在 将 一 个 远程 对 象 名 映射 到 它 的 远程 对 象 引 用 上 的 同时 ， 也 给 出 了 

用 户 可 以 理解 的 对 象 的 一 些 属性 。 

注意 ,“ 地 址 ” 常 被 看 作 另 一 种 可 用 于 查找 的 名 字 ， 或 者 它 包含 一 个 可 查找 的 名 字 。 必 须 查找 
IP 地 址 来 获得 以 太 网 地 址 等 网 络 地 址 。 类 似 地 ，Web 浏 览 器 以 及 邮件 客户 使 用 DNS 来 解释 URL 中 的 
域名 与 邮件 地 址 。 图 9-1 给 出 了 一 个 URL 的 域 URL 
名 部 分 ， 它 首先 通过 DNS 被 解析 成 IP 地 址 ， http://www.cdk4.net:8888/WebExamples/earth.html 
然后 通过 ARP 解 析 成 一 个 Web 服 务 器 的 以 太 网 
地 址 ，URL 的 最 后 一 部 分 被 Web 服 务 器 上 的 资源 ID (IP 号 ， 端 口号 ， 路 径 号 ) 
文件 系统 解析 ， 用 于 寻找 相关 文件 。 55.55.55.55 8888 WebExamples/earth html 

名 字 与 服务 “分 布 式 系统 使 用 的 许多 名 a pe 
字 是 特定 的 服务 专用 的 。 客 户 程序 使 用 名 字 
来 请 求 特定 服务 以 便 在 它 管理 的 已 命名 对 象 ” ”网 络 地 址 
或 资源 上 执行 某 个 操作 。 例 如 ， 当 请 求 删除 人 0:8e:2b0:5a 
一 个 文件 时 ， 需 要 将 文件 名 传送 给 文件 服 
务 ， 如 果 需 要 向 特定 进程 发 送信 号 ， 则 要 将 et 
该 进程 的 标识 符 传送 到 进程 管理 服务 。 除 客 Wh RE 
户 基于 共享 对 象 通信 的 情况 外 ， 上 述 名 字 仅 在 管理 命名 对 象 的 服务 的 上 下 文中 使 用 。 

在 分 布 式 系统 中 ， 名 字 也 要 能 指称 超出 单个 服务 范畴 的 实体 。 这 些 实体 主要 包括 用 户 (具有 
专 有 名 、 登 录 名 、 用 户 标识 符 以 及 电子 邮件 地 址 )、 计 算 机 (有 主机 和 名， 如 bruno、bronwyn) 以 及 
服务 本 身 (如 文件 服务 、 打 印 服务 ) 。 在 基于 对 象 的 中 间 件 中 ， 名 字 指 向 提供 了 服务 或 应 用 的 远程 
对 象 。 注意 ， 上 述 名 字 必 须 是 人 类 能 阅读 与 理解 的 ， 因 为 用 户 与 系统 管理 员 需 要 使 用 分 布 式 系统 
中 的 主要 组 件 与 配置 ， 程 序 员 需 要 使 用 程序 中 的 服务 ， 而 用 户 需要 通过 分 布 式 系统 相互 通信 ， 同 
时 讨论 系统 不 同 部 分 有 哪些 可 用 的 服务 。 考 虑 到 因特网 的 连接 无 处 不 在 ， 这 些 命名 需求 可 能 是 全 
球 性 的 。 

统一 资源 标识 统一 资源 标识 符 (Uniform Resource Identifiers, URI) [Berners Lee et al. 
2005] 是 用 来 标识 Web 资 源 ， 以 及 其 他 因特网 资源 (如 电子 邮箱 ) 的 。 它 的 重要 目标 是 将 资源 以 一 
致 的 方式 标识 出 来 ， 以 便 它 们 能 被 公共 软件 (如 浏览 器 ) 处 理 。URI 是 “统一 的 "， 它 的 语法 结构 
整合 了 各 种 相对 独立 并 且 尚 不 明确 的 资源 标识 符 类 型 ( 即 URI 方 案 )， 还 提供 了 处 理 全 球 名 字 空 间 
方案 的 过 程 。 统 一 的 优点 在 于 ， 它 简化 了 引进 新 的 标识 符 类 型 的 过 程 ， 并 且 能 够 将 已 有 的 标识 符 
类 型 应 用 到 新 的 上 下 文中 ， 而 不 会 影响 已 有 的 应 用 。 

例如 ， 如 果 有 人 想 发 明 一 种 “窗口 部 件 ”URI， 则 URI 就 可 以 成 为 一 个 窗口 部 件 : 必须 要 遵守 
全 球 URI 语 法 规范 ， 以 及 本 地 窗口 部 件 标识 符 方案 的 规则 。 这 样 做 ， 那 些 URI 就 能 明确 标识 窗口 部 
件 资源 ， 现 有 的 并 不 会 访问 窗口 部 件 的 软件 也 可 以 正确 处 理 窗口 部 件 URI 一 一 例如 ， 通 过 管理 包含 
窗口 部 件 的 目录 。 下 面 是 一 个 URI 如 何 整合 一 个 已 有 资源 标识 符 的 例子 ， 即 在 已 有 的 电话 号 码 面前 
增加 机 制 名 tel， 并 且 将 电话 号 码 统一 表示 为 如 下 的 标准 形式 : tel: +1 -816 -555 -1212。 这 些 tel URI 
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可 以 作为 Web 连 接 ， 而 且 当 有 人 点 击 链接 时 ， 就 会 拨 通 相应 的 电话 。 

统一 资源 定位 器 : 有些 URI 提 供 了 资源 的 位 置信 息 ( 例 如 一 个 DNS 主机 名 和 那 台 机 器 的 路 径 名 )， 
而 另外 一 些 URI 则 纯粹 用 作 资 源 的 名 称 。 统 一 资源 定位 器 (URL) 作为 资源 位 置 的 标识 符 ， 包 括 
1.3 节 提 到 的 “http”URL, 例如 http://www.cdk4.net/， 它 标识 了 主机 www.cdk4.net 上 给 定 路 径 (“/”) 
的 网 页 。 另 一 个 例子 是 “mailto”URL， 如 mailto:fred@flintstone.org 标 识 了 一 个 给 定 地 址 的 邮箱 。 

URL 是 一 种 有 效 的 用 于 访问 资源 的 标识 符 ， 但 是 它 也 有 下 面 的 缺点 当 一 个 资源 被 删除 或 者 
从 一 个 网 站 移 到 另 一 个 网 站 时 ， 原 来 的 URL 就 会 成 为 一 个 指向 该 资源 变动 前 所 在 网 站 的 悬空 链接 。 
当 用 户 点 击 这 个 基 空 链接 时 ，Web 服 务 器 或 者 会 应 答 所 访问 资源 不 存在 ， 或 者 更 糟糕 的 是 会 返回 
给 用 户 一 个 不 同 的 资源 ， 因 为 这 个 URL 又 被 重新 分 配给 了 另 一 个 资源 。 

统一 资源 名 称 : 统一 资源 名 称 (URN) 是 URI 的 一 种 ， 它 仅 作 为 纯粹 资源 名 ， 而 不 包含 资源 
定位 符 。 例 如 ， 下 面 的 URI: 

mid:0E4FC272 -5C02 -11D9 -B115 -000A95B55BC8@hpl.hp.com 
就 是 一 个 URN， 它 被 标注 在 电子 邮件 的 Message-1d 域 中 ， 从 而 标识 了 该 邮件 消息 。 这 个 URI 能 将 邮 
件 消息 区 分 开 。 但 这 个 URI 本 身 并 没有 提供 任何 有 关 该 邮件 地 址 的 消息 ， 如 果 需 要 邮件 地 址 ， 则 需 
要 调用 相应 的 查询 操作 。 

以 urn: 开头 的 特殊 的 URI 的 子 树 是 为 URN 而 保留 的 ， 但 并 不 是 所 有 URN 都 必须 以 urn 开 头 ， 例 
如 上 面 例子 中 的 URN 就 是 以 mid 开 头 。 以 urn 开 头 的 URI 都 形 如 ; urn:nameSpace:nameSpace- 
specificName。 例 如 ，urn:ISBN:0-201-62433-8 标 识 以 标准 ISBN 命 名 机 制 命名 的 编号 为 0-201- 
62433-8 的 书 。 又 例如 ， urn:doi:10.555/music-pop-1234 标 识 了 依据 数据 对 象 标 识 方案 [www.doi.org]， 
出 版 者 为 10.555， 名 称 为 music-pop-1234 的 出 版 物 。 

有 一 些 解析 服务 (本章 称 为 名 字 服 务 )， 例 如 用 于 处 理 URN 的 Handle 系 统 可 以 通过 数据 对 象 标 
识 [www.handle.net] 获 得 资源 属性 ， 但 是 没有 一 种 解析 服务 获得 了 广泛 的 应 用 。 事 实 上 ， 在 Web 和 
因特网 搜索 社区 有 关于 独立 分 类 的 URN 应 该 如 何 扩展 的 争论 一 直 在 继续 。 其 中 一 派 认 为 应 该 “ 保 
持 URL 不 变 ”"， 换 句 话说 ， 每 一 个 人 都 应 该 保证 URL 所 引用 的 资源 持续 有 效 。 相 反 的 观点 则 认为 并 
不 是 每 个 人 都 要 保证 URL 的 有 效 性 ， 因 为 这 需要 必要 的 资金 来 维持 对 域名 和 资源 的 管理 。 


9.2 名 字 服 务 和 域名 系统 


一 个 名 字 服 务 存储 了 一 个 或 多 个 命名 上 下 文 一 一 有 关 用 户 、 计 算 机 、 服 务 以 及 远程 对 象 符 对 
象 的 文本 名 字 与 属性 的 绑 定 的 集合 。 名 字 服 务 的 主要 操作 是 名 字 解 析 ， 即 根据 -- 个 给 定 的 名 字 查 
找 相应 的 属性 ， 我 们 将 在 9.2.2 节 中 描述 名 字 解 析 的 实现 。 其 他 操作 ， 如 创建 新 的 绑 定 、 删 除 绑 定 、 
列 出 绑 定 的 名 称 以 及 增删 上 下 文 都 是 名 字 服 务必 须 支 持 的 操作 。 | 

名 字 管 理 从 其 他 服务 中 分 离 出 来 的 主要 原因 在 于 分 布 式 系统 的 开放 性 。 开 放 性 带 来 了 下 列 需 求 : 

* 一致 性 : 不 同 服务 管理 的 资源 使 用 相同 的 命名 方案 会 很 方便 ，URL 就 是 一 个 很 好 的 例子 。 

* 集成 性 : 在 分 布 式 系统 中 并 不 总 能 预测 共享 的 范围 。 在 某 些 情况 下 ， 必 须 共 享 (从 而 命名 ) 

在 不 同 管理 域 中 创建 的 资源 。 如 果 没 有 一 个 公共 的 名 字 服 务 ， 管 理 域 会 使 用 完全 不 同 的 命名 

约定 。 

通用 名 字 服 务 的 需求 ”名 字 服 务 最 初 非常 简单 ， 因 为 它 仅 用 来 满足 名 字 与 单个 管理 域 (如 
LAN 或 WAN) 中 的 地 址 绑 定 的 需求 。 然 而 ， 网 际 互 连 以 及 分 布 式 系统 的 不 断 扩 展 带 来 了 更 大 规模 
的 名 字 映 射 问题 。 

Grapevine[Birrell et al. 1982] 是 最 早 的 可 扩展 多 域名 字 服 务 之 一 。 从 名 字 的 数量 以 及 可 处 理 的 
负载 来 看 ， 至 少 可 在 两 个 数量 级 范围 内 伸缩 。 

数字 设备 公司 的 系统 研究 中 心 [Lampson 1986] 开 发 的 全 局 名 字 服 务 是 Grapevine 的 改进 。GNS 
具有 更 宏大 的 目标 ， 包 括 : 
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。 处理 任 意 多 的 名 字 ， 为 任意 多 的 管理 组 织 提 供 服务 : 例如 ， 系 统 应 该 能 处 理 全 世界 计算 机 用 
户 的 电子 邮件 地 址 。 

。 长 生命 周期 : 在 生命 周期 中 ， 名 字 集 的 组 织 、 实 现 服务 的 组 件 都 会 发 生变 化 。 

。 高 可 用 性 : 很 多 系统 依赖 名 字 服 务 ， 名 字 服 务 一 旦 崩溃 ， 系 统 就 无 法 工作 。 

。 故 障 陋 离 ， 局 部 故障 不 会 带 来 整个 服务 的 崩 祺 。 

“。 克 许 不 信任 : 一 个 大 型 的 开放 系统 很 难 使 每 一 个 组 件 都 被 系统 中 所 有 客户 信任 。 

例如 ， 全 局 名 字 服 务 [van Steen et al. 1998] (包括 电子 邮件 用 户 地 址 或 文档 ) 和 Handle 系 统 
[www.handle.net]， 它 们 都 关注 于 提高 系统 在 大 规模 对 象 条 件 下 的 可 伸缩 性 。 第 3 章 中 介绍 的 因 特 
网 域名 系统 (DNS) 命名 了 因特网 上 的 对 象 (实际 上 就 是 计算 机 ) 。 为 提供 满意 的 服务 ， 它 极 大 地 
依赖 于 名 字数 据 的 复制 与 缓存 。 在 DNS 以 及 其 他 名 字 服 务 的 设计 中 ， 对 于 缓存 中 的 文件 副本 ， 假 
设 无 需 严 格 保证 缓存 一 致 性 。 原 因 在 于 ， 修 改 并 不 是 那么 频繁 ， 同 时 使 用 一 个 过 期 的 名 字 翻 译 结 
果 通 常 可 被 客户 程序 探测 到 。 

本 节 将 用 DNS 为 例子 ， 讨 论 名 字 服 务 设 计 的 主要 问题 ， 然 后 给 出 有 关 DNS 的 实例 研究 。 

9.2.1 名 字 空 间 

名 字 空 间 是 一 个 服务 所 能 识别 的 所 有 有 效 名 字 的 集合 ， 所 谓 有 效 意味 着 服务 将 试图 查找 之 ， 即 
使 该 名 字 并 不 对 应 于 任何 对 象 ， 即 未 被 绑 定 。 名 字 空 间 需 要 语法 定义 。 例 如 ， 名 字 Two 不 可 能 是 一 
个 UNIX 进 程 的 名 字 ， 然 而 数字 2 却 可 以 是 。 同 样 ， 名 字 “…” 作 为 计算 机 的 DNS 名 是 不 可 接受 的 。 

在 UNIX 文 件 系统 或 在 组 织 机 构 的 层次 中 (如 因特网 域名 服务 )， 名 字 有 一 个 内 部 结构 ， 表 示 
它们 在 层次 化 名 字 空 间 中 的 位 置 ， 或 者 可 以 从 一 组 平面 的 数字 标识 符 或 符号 标识 符 集合 中 选择 名 
字 。 层 次 化 名 字 空 间 的 最 大 好 处 在 于 名 字 的 每 个 部 分 总 是 相对 于 一 个 独立 的 上 下 文 进行 解析 ， 而 
相同 的 名 字 在 不 同 的 上 下 文中 可 以 有 不 同 的 含义 。 对 于 文件 系统 ， 每 个 目录 都 代表 一 个 上 下 文 。 
因此 ，/etc/passwd 是 一 个 具有 两 个 部 分 的 层次 化 的 名 字 。 首 先 ，etc 相 对 于 上 下 文 “/” 或 根 进行 解 
析 ， 而 第 二 部 分 “/passwd” 相 对 于 上 下 文 “/etc” 被 解析 。 名 字 “/oldetc/passwd” 可 以 有 不 同 的 
含义 ， 因 为 该 名 字 的 第 二 个 部 分 在 不 同 的 上 下 文中 解析 。 类 似 地 ， 同 样 的 名 字 “/oldetc/passwd” 
在 两 台 不 同 的 机 器 上 ， 共 于 不 同 的 上 下 文 会 解析 到 不 同 的 文件 上 。 

层次 化 名 字 空 间 可 以 是 无 限 的 ， 所 以 系统 可 以 无 限 增 长 。 平面 名 字 空 间 通常 是 有 限 的 ， 它 们 
的 大 小 由 名 字 所 允许 的 最 大 长 度 决 定 。 如 果 在 平面 名 字 空 间 中 ， 名 字 的 长 度 没 有 限制 ， 那 么 平面 
名 字 空 间 也 可 以 是 无 限 的 。 层 次 化 名 字 空 间 另 一 个 好 处 是 可 由 不 同 的 人 管理 不 同 的 上 下 文 。 

第 1 章 介绍 了 http URL 的 结构 。URL 名 字 空间 包括 .images/figure1.jpg 这 样 的 相对 名 。 在 这 种 
URL 方 案 中 ， 浏 览 器 将 路 径 名 所 对 应 的 主机 名 与 服务 器 目录 ， 作 为 它 所 嵌入 的 文档 的 主机 名 与 服 
务 器 目录 名 。 

DNS 名 通常 被 称 为 域名 ， 它 们 是 与 UNIX 绝 对 文件 名 相似 的 字符 串 。DNS 名 的 例子 有 ; 
www.cdk4.net (一 台 计 算 机 )、net、com 和 ac.uk (后 三 个 是 域名 )。 

DNS 名 字 空 间 具有 层次 结构 ， 即 一 个 域名 包括 一 个 或 多 个 字符 串 ， 这 些 字符 串通 常 称 为 名 字 
成 分 或 标签 ， 并 且 用 分 隔 符 “.” 分 隔 开 来 。 尽 管 为 管理 方便 ，DNS 名 字 空 间 的 根 节 点 有 时 用 “.” 
指 代 ， 但 事实 上 ， 域 名 的 开头 与 结尾 并 没有 分 隔 符 。 名 字 成 分 是 不 包含 “.” 符号 的 非 空 可 打印 字 
符 串 。 一 般 来 说 ， 名 字 的 前 级 (prefix) 指 的 是 包含 零 个 或 多 个 完整 名 字 成 分 的 名 字 的 最 初 一 部 分 。 
例如 ， 在 DNS 中 ， www 和 www.cdk4 都 是 www.cdk4.net 的 前 组 。 DNS 名 不 区 分 大 小 写 ， 因 此 ， 
www.cdk4.net 与 WWW.CDK4.NET 的 含义 相同 。 

DNS 服 务 器 不 能 识别 相对 名 ， 所 有 的 名 字 都 基于 全 局 的 根 节 点 。 然 而 ， 在 实际 实现 中 ， 客 户 
软件 会 维护 一 个 域名 表 ， 在 解析 单 部 分 域名 时 ， 会 将 该 列表 自动 附加 到 单 部 分 域名 之 后 。 例 如 ， 
域 cdk4.net 中 的 名 字 www 有 可 能 指 的 是 www.cdk4.net。 在 试图 解析 www 时 ， 客 户 软件 将 默认 域名 
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cdk4.net 附 加 在 www 后 。 如 果 解 析 失 败 ， 则 附加 其 他 默认 域名 。 最 后 ， 将 www 作 为 绝对 名 解析 。 在 
这 种 情况 下 ， 一 个 操作 就 失败 了 。 另 外， 具有 多 个 部 分 的 名 字 通 常 不 做 预 处 理 ， 作 为 绝对 名 被 送 
到 DNS 。 

别名 ”遗憾 的 是 ， 带 一 个 或 两 个 部 分 以 上 的 名 字 在 键入 与 记忆 上 都 很 不 方便 。 一 般 说 来 ， 别 名 
(alias) 与 UNIX 风 格 的 符号 链接 相似 ， 人 允许 用 一 个 方便 的 名 字 替 代 复 杂 的 名 字 。 在 DNS 服务 中 使 用 
别名 的 方法 是 ， 通 过 定义 一 个 域名 来 表示 另 一 个 域名 。 提 供 别 名 的 原因 是 为 了 保持 透明 性 。 例 如 ， 
别名 通常 用 于 指定 一 个 运行 Web 服 务 器 或 FTP 服 务 器 的 机 器 名 。 名 字 www.example.net 是 
fred.example.net 的 别名 。 这 样 做 的 好 处 在 于 客户 可 以 通过 一 个 不 涉及 特定 机 器 的 通用 的 名 字 引 用 一 
个 Web 服 务 器 ， 如 果 Web 服 务 器 被 移动 到 另 一 台 计 算 机 ， 唯 一 要 做 的 是 更 新 DNS 数据 库 中 的 别名 。 

命名 域 ”命名 域 是 一 个 仅 有 一 个 总 的 管理 权利 来 管理 该 域 中 的 名 字 分 派 问题 的 名 字 空间 。 该 “ 
权威 机 构 完全 控制 哪些 名 字 可 以 被 绑 定 到 域 中 ， 它 也 可 以 将 这 个 任务 委托 出 去 。 

DNS 的 域 是 域名 的 集合 。 语 法 上 ， 一 个 域 的 名 字 是 在 该 域 中 所 有 域名 的 公共 后 组 ， 除 了 公共 
后 缀 这 个 特点 ， 域 名 很 难 与 其 他 名 字 (如 计算 机 名 ) 区 分 开 来 。 例 如 ，net 是 一 个 包含 了 cdk4.net 的 
域 。 注 意 ,“ 域 名 ”这 个 术语 可 能 会 令 人 迷惑 ， 因 为 仅 有 一 部 分 域名 标识 了 域 (而 其 他 域名 则 标识 
了 计算 机 )。 

域 的 管理 可 以 被 移交 到 子 域 中 。 域 dcs.qmul.ac.uk， 即 英国 Queen Mary College (伦敦 大 学 ) 的 
计算 机 系 可 以 包含 任何 该 系 想 要 的 名 字 。 但 dcs.qmul.ac.uk 域 名 本 身 需要 得 到 学 院 权威 机 构 ( 它 管 
理 着 域 qmul.ac.uk) 的 认同 。 类 似 地 ，qmul.ac.uk 必 须 得 到 已 注册 的 权威 机 构 ac.uk 的 认同 。 

管理 命名 域 ， 以 及 管理 由 名 字 服 务 使 用 的 存储 在 权威 名 字 服 务 器 上 的 权威 数据 库 ， 使 该 数据 
库 保 持 最 新 状态 ， 这 两 个 职责 是 密切 相关 的 。 通 常 ， 属 于 不 同 命名 域 的 命名 数据 存储 在 不 同 的 名 
字 服 务 器 上 ， 这 些 名 字 服 务 器 由 不 同 的 权威 机 构 管理 。 

组 合 与 定制 名 字 空 间 DNS 提供 了 一 个 全 局 的 、 同 构 的 名 字 空 间 ， 在 DNS 中 ， 无 论 是 哪 台 计 
算 机 上 的 哪个 进程 进行 查询 ， 同 一 个 名 字 总 是 指向 同一 个 实体 。 与 之 相反 ， 某 些 名 字 服 务 允 许 不 
同 的 名 字 空 间 一 一 甚至 是 异 构 的 名 字 空 间 一 一 嵌入 其 中 。 而 且 ， 有 些 名 字 服 务 允 许 定制 名 字 空间 ， 
以 满足 个 别 组 织 、 用 户 甚至 进程 的 需要 。 

合并 : 在 UNIX 与 NFS 的 安装 文件 系统 的 实践 ( 见 8.3 节 ) 中 ， 提 供 了 一 个 名 字 空 间 的 一 部 分 被 
方便 地 嵌入 到 另 一 个 名 字 空 间 的 实例 。 此 刻 我 们 考 虚 如何 合 并 两 个 完整 的 UNIX 文 件 系 统 ， 这 两 个 
系统 在 两 台 分 别名 为 red 与 blue 的 计算 机 上 。 每 台 计 算 机 有 自己 的 根 ， 具 有 重 又 的 文件 名 。 例 如 ， 
/etc/passwd 在 red 上 指 的 是 一 个 文件 ， 而 在 blue 上 指 的 是 另 一 个 文件 。 合 并 两 个 文件 系统 的 最 简单 
的 方法 是 : 用 一 个 “超级 根 ”替代 原来 每 台 计 算 机 的 根 ， 然 后 将 每 台 计算 机 的 文件 系统 安装 到 该 
超级 根 目录 下 ， 称 为 /red 与 /blue。 这 样 用 户 与 程序 可 以 将 上 文中 的 文件 分 别称 为 /red/etc/passwd 与 
/blue/etc/passwd。 然 而 ， 这 个 新 的 命名 规范 本 身 就 会 导致 在 两 台 计 算 机 上 仍然 使 用 旧名 字 
/etc/passwd 的 程序 发 生 故 障 。 一 个 解决 方法 是 ， 将 每 台 计算 机 旧 根 下 的 内 容 仍然 保留 ， 并 将 两 台 计 
算 机 上 已 装载 的 文件 系统 /red 与 /blue 嵌 入 (假设 这 样 做 不 会 带 来 旧 根 下 的 名 字 冲 突 ) 。 

结论 是 我 们 总 是 可 以 通过 构造 更 高 一 级 的 根 上 下 文 来 合并 名 字 空 间 ， 但 这 样 做 会 带 来 向 后 兼 
容 问 题 。 修 正 兼容 性 问题 又 会 给 我 们 带 来 混合 名 字 空 间 问 题 ， 在 两 台 计 算 机 的 用 户 之 间 翻 译 旧 的 
名 字 也 非常 不 方便 。 

异 构 性 : 分 布 式 计算 环境 (DCE) 的 名 字 空 间 [OSF 1997] 允 许 修 人 异 构 名 字 空间 。DCE 名 字 
可 以 包含 接合 点 (junction) ， 接 合 点 的 概念 与 NFS 与 UNIX ( 见 8.3 节 ) 中 的 安装 点 相似 ， 只 不 过 它 
允许 安装 异 构 的 名 字 空 间 。 例 如 ， 考虑 完整 的 DCE 名 /…/dcs.qmul,ac.uk/principals/Jean.Dollimore 。 
名 字 的 第 一 部 分 /.…/dcs.qmul.ac.uk/ 标 识 了 一 个 称 为 单元 的 上 下 文 。 下 一 个 部 分 是 一 个 接合 点 。 例 
如 ， 接 合 点 principals 是 一 个 包含 安全 主体 的 上 下 文 ， 在 该 上 下 文中 可 以 查询 名 字 的 最 后 一 个 部 分 





名 字 服 务 239 








Jean.Dollimore。 类 似 地 ， 在 /..…/dcs.qmul.ac.uk/files/pub/reports/TR2000-99 中 ， 接 合 点 files 是 一 个 对 
应 于 文件 系统 目录 的 上 下 文 ， 在 该 上 下 文中 ， 查 询 名 字 的 最 后 一 个 部 分 pub/reports/TR2000-99。 接 
合 点 principals 与 files 是 异 构 名 字 空 间 的 根 ， 它 们 由 异 构 名 字 服 务实 现 。 

定制 : 从 上 面 幅 入 NFS 文 件 系统 的 例子 中 可 以 看 出 ， 在 有 些 情况 下 ， 用 户 愿意 构造 自己 的 名 字 
空间 ， 而 不 是 共享 某 个 名 字 空 间 。 文 件 系 统 的 安装 使 用 户 可 以 导入 存储 在 服务 器 上 的 共享 文件 ， 
而 其 他 名 字 依 然 指向 本 地 未 共享 的 文件 ， 并 且 可 以 进行 自治 管理 。 然 而 ， 即 使 是 同一 个 文件 ， 如 
果 从 不 同 的 计算 机 访问 ， 也 会 安装 到 不 同 的 安装 点 上 ， 从 而 有 不 同 的 名 字 。 在 不 共享 整个 名 字 空 
间 的 情况 下 ， 用 户 必须 在 不 同 的 计算 机 间 翻 译名 字 。 

定制 的 另 一 个 动机 是 同一 个 名 字 在 不 同 的 计算 机 上 可 以 指向 不 同 的 文件 。 例 如 ， 名 字 
/bin/netscape 原 则 上 可 以 绑 定 到 采用 奔腾 计算 机 的 x86 二 进 制 格式 的 程序 上 ， 也 可 以 绑 定 到 Mac OS 
X 计 算 机 的 PowerPC 二 进 制 格式 的 程序 上 。 这 种 将 相间 名 字 映 射 到 不 同文 件 的 方式 ， 使 得 包括 这 些 
名 字 的 脚本 程序 可 在 不 同 的 机 器 配置 下 正常 工作 。 

Spring 名 字 服 务 [Radia et al. 1993] 提 供 了 动态 构造 名 字 空 间 以 及 有 选择 地 共享 个 人 命名 上 下 文 
的 能 力 。 与 上 面 例子 不 同 的 是 ， 甚至 同一 台 计 算 机 上 的 两 个 不 同 的 进程 也 可 以 有 不 同 的 命名 上 下 
文 。Spring 命 名 上 下 文 是 在 分 布 式 系统 中 可 以 共享 的 第 一 类 对 象 。 例 如 ， 假 设计 算 机 red 上 的 用 户 
试图 运行 blue 上 的 一 个 程序 ， 该 程序 寻找 /etc/passwd 这 样 的 文件 路 径 ， 但 是 该 路 径 被 解析 到 red 文 
件 系 统 上 的 文件 ， 而 不 是 blue 上 的 文件 。 在 Spring 中 ， 可 以 通过 将 对 red 的 本 地 命名 上 下 文 的 引用 传 
递 给 blue 并 将 其 作为 程序 的 名 字 上 下 文 来 达到 这 一 目的 。Plan 9{Pike et al. 1993] 也 允许 进程 具有 自 
己 的 文件 系统 名 字 空 间 。Plan 9 的 一 个 新 颖 的 特色 (该 特色 也 可 在 Spring 中 实现 ) 是 它 的 物理 目录 
可 以 被 排序 并 合并 为 一 个 逻辑 目录 。 这 样 做 的 效果 是 ， 在 单个 逻辑 目录 中 被 查询 的 名 字 会 在 后 续 
的 物理 目录 中 被 查询 ， 直 到 查询 得 到 匹配 的 结果 ， 然后 可 以 返回 相应 的 属性 。 这 样 做 的 好 处 是 ， 
在 搜寻 程序 或 库 文件 的 过 程 中 ， 用 户 无 需 提供 一 组 路 径 。 
9.2.2 名 字 解 析 

名 字 解 析 通 常 是 一 个 迭代 的 过 程 ， 通 过 该 过 程 ， 名 字 被 反复 地 送 到 命名 上 下 文中 。 一 个 命名 
上 下 文 或 者 直接 将 给 定 的 名 字 映 射 到 一 组 简单 属性 中 (例如 ， 一 个 用 户 的 属性 )， 或 者 将 之 映射 到 
一 个 更 深 的 命名 上 下 文中 ， 同 时 将 一 个 派生 名 送 到 该 上 下 文 。 在 解析 一 个 名 字 时 ， 该 名 字 首 先 被 
送 到 某 个 初始 命名 上 下 文中 ， 随 着 更 深层 次 的 命名 上 下 文 以 及 派生 名 的 输出 ， 解析 过 程 不 断 迭 代 。 
在 9.2.1 节 的 开始 ， 我 们 以 /etc/passwd 为 例 阑 述 了 该 过 程 ， 在 此 例 中 ， etc 首 先 被 送 到 上 下 文 /， 然 后 
passwd 被 送 到 上 下 文 /etc。 

解析 过 程 迭 代 特 性 的 另 一 个 实例 是 别名 的 使 用 。 例 如 ， 当 请 求 DNS 服 务 器 解析 诸如 www.dcs. 
9muLac.uk 之 类 的 别名 时 ,服务 器 首先 将 该 别名 解析 到 另 一 个 域名 (在 该 例 中 为 apricot.des.qmul.ac.uk)， 
然后 这 个 域名 被 进一步 解析 产生 一 个 IP 地 址 。 

通常 ， 别 名 的 使 用 可 能 会 导致 名 字 空 间 带 有 循环 ， 在 这 种 情况 下 ， 解 析 过 程 将 永 不 终止 。 有 
两 个 解决 方案 ， 一 是 一 旦 到 达 解 析 次 数 的 阐 值 ， 就 放弃 解析 ， 第 二 个 是 让 管理 员 禁 止 任何 会 导致 
循环 的 别名 。 

名 字 服 务 器 与 导航 诸如 DNS 这 样 的 名 字 服 务 需要 将 数据 存储 在 一 个 巨大 的 数据 库 中 ， 并 由 
一 大 群 人 访问 ， 因此 通常 不 会 将 所 有 的 名 字 信 息 放 在 单个 服务 器 上 。 这 样 的 服务 器 会 成 为 一 个 瓶 
颈 以 及 故障 的 临界 点 。 任 何 常用 的 名 字 服 务 都 应 该 使 用 复制 以 提高 可 用 性 。 我 们 将 看 到 ，DNS 规 
定数 据 库 的 任何 一 个 子 集 都 必须 复制 到 至 少 两 个 不 会 同时 失效 的 服务 器 上 。 

我 们 曾 提 到 ， 属于 一 个 命名 域 的 数据 通常 被 存储 在 该 域 的 权威 管理 机 构 管理 的 本 地 名 字 服 务 
器 上 。 尽 管 在 某 些 情 况 下 ， 一 个 名 字 服 务 器 会 存储 多 个 域 的 数据 ， 但 数据 根据 域 的 不 同 被 分 区 到 
不 同 服务 器 上 却 是 事实 。 我 们 看 到 ， 在 DNS 中 ， 大 多 数 条 目 是 有 关 本 地 计算 机 的 。 当然 ， 也 有 些 
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名 字 服 务 器 存储 更 高 的 域 (如 yahoo.com、ac.uk) 和 根 信息 。 

数据 的 分 区 意味 着 本 地 名 字 服 务 器 若 没有 其 他 名 字 服 务 器 的 帮助 ， 将 无 法 回答 所 有 的 询问 。 
例如 ， 在 dcs.qmul.ac.uk 域 中 的 名 字 服 务 器 将 不 能 提供 域 cs.purdue.edu 中 的 计算 机 的 IP 地 址 ， 除 非 该 
计算 机 的 域名 被 缓存 一 一 此 时 ， 该 域名 必然 不 是 第 一 次 被 访问 。 

为 解析 一 个 名 字 ， 从 超过 一 个 名 字 服 务 器 上 定位 命名 数据 的 过 程 被 称 为 导航 。 客 户 端的 名 字 
解析 软件 代表 客户 进行 导航 。 它 们 在 解析 名 字 的 过 程 中 会 与 名 字 服 务 器 进行 必要 的 通信 。 它 们 可 
能 作为 库 代 码 链接 到 客户 端 ， 例 如 DNS 的 BIND 实 现 ( 见 9.2.3 节 ) 或 Grapevine[birrell et al. 1982]。 
另 一 种 方法 (如 在 X.500 中 使 用 的 ) 是 在 一 个 独立 的 进程 中 提供 名 字 解 
析 ， 而 该 进程 可 被 该 计算 机 上 的 所 有 客户 进程 共享 。 

DNS 支持 迭代 导航 模型 (参见 图 9-2) 。 在 解析 一 个 名 字 时 ， 客 户 将 
该 名 字 送 到 本 地 名 字 服 务 器 ， 该 服务 器 试图 解析 之 。 若 本 地 名 字 服 务 器 
有 这 个 名 字 ， 则 立刻 返回 结果 。 如 果 没 有 这 个 名 字 ， 则 它 会 建议 另 一 个 
能 提供 帮助 的 服务 器 。 在 另 一 个 服务 器 上 继续 解析 ,进行 进一步 的 导航 ， a 
直到 该 名 字 被 定位 或 是 发 现 并 未 与 任何 名 字 绑 定 为 止 。 gL es 

由 于 DNS 可 以 容纳 数 百 万 个 域 的 条 目 , 并 且 可 以 被 大 量 的 客户 访问 ， ”与 名 字 服务 器 NSI~NS3 联 系 
因此 ， 即 使 在 根 服务 器 被 大 量 复制 的 情况 下 ， 所 有 的 查询 都 从 根 服务 器 图 9-2 和 迭代 导航 
开始 也 是 不 可 行 的 。 将 DNS 数据 库 划 分 到 不 同 服务 器 上 的 策略 是 : 大 多 
数 查询 可 在 本 地 被 满足 ， 其 余 的 查询 无 需 单独 解析 名 字 的 每 一 个 部 分 即 可 被 满足 。9.2.3 节 将 详细 
描述 DNS 解析 名 字 的 方案 。 

NFS 在 解析 文件 名 时 ， 按 每 个 部 分 进行 解析 ， 也 使 用 了 和 迭代 导航 (参见 第 8 章 ) 。 这 是 因为 在 
解析 名 字 时 ， 文 件 服务 可 能 会 遇 到 符号 链接 。 符 号 链接 必须 在 客户 的 文件 系统 名 字 空间 中 被 解释 ， 
因为 它 可 以 指向 另 一 个 服务 器 目录 中 的 文件 。 客 户 计算 机 必须 确定 该 服务 器 是 哪个 ， 因 为 只 有 客 
户 知道 安装 点 。 

在 组 播 导 航 中 ， 客 户 向 名 字 服 务 器 组 组 播 需 解析 的 名 字 以 及 需要 的 对 象 类 型 。 只 有 包含 命名 属 
性 的 服务 器 会 响应 该 请 求 。 遗 憾 的 是 ， 如 果 名 字 确 实 并 未 绑 定 到 任何 对 象 ， 则 该 请 求 不 会 得 到 任何 响 
应 。Cheriton 与 Mann[1989] 描 述 了 一 个 基于 组 播 
的 导航 方案 ， 在 该 方案 中 ， 服 务 器 组 中 包含 一 
个 独立 的 服务 器 来 处 理 名 字 未 被 绑 定 的 情况 。 

选 代 导 航模 型 的 赫 代 方案 是 ， 名 字 服 务 器 
协调 名 字 的 解析 过 程 ， 并 将 结果 返回 给 用 户 代 
理 。Ma[1992] 区 分 了 非 递归 式 以 及 递归 式 服 We A 
务 器 控制 的 导航 (参见 图 9-3)。 在 非 递归 式 服 递归 递归 式 

服务 器 控制 的 服务 器 控制 的 
务 中 控制 的 导航 中 ， 任 何 名 字 服 务 当 者 可 被 客服 Ns1 代 和 与 他 名 
o | 及 上 9 5 国 8 
组 播 或 迭代 与 其 他 对 等 服务 器 通信 ， 如 同 它 是 6 
一 个 客户 一 样 。 在 递归 式 服务 器 控制 的 导航 中 ， 客 户 依然 只 与 一 个 服务 器 打交道 。 如 果 服 务 器 未 
和 another erth te Me ante er hehe 
析 该 名 字 。 这 个 过 程 递归 地 继续 下 去 ， 直 到 名 字 被 解析 为 止 。 

若 一 个 名 字 服 务 跨越 了 不 同 的 管理 域 ， 则 在 一 个 管理 域 中 执行 的 客户 可 能 会 被 禁止 访问 另 一 
个 管理 域 上 的 名 字 服务 器 。 此 外 ， 名 字 服 务 器 甚至 会 被 禁止 探测 在 另 一 个 管理 域 中 的 名 字 服 务 器 
上 的 命名 数据 的 部 署 。 这 样 ， 客 户 控制 的 导航 与 非 递 归 式 服 务 器 控制 的 导航 均 不 适用 ， 此 时 必须 
使 用 递归 式 的 服务 器 控制 的 导航 方式 。 获 得 授权 的 名 字 服务 器 向 指定 的 名 字 服 务 器 请 求 名 字 服 务 
数据 ， 该 指定 的 名 字 服 务 器 由 其 他 的 管理 部 门 管理 ， 它 返回 相应 的 属性 ， 而 并 不 暴露 命名 数据 库 
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的 不 同 部 分 是 如 何 存储 的 。 

缓存 ”在 DNS 以 及 其 他 名 字 服 务 中 ， 客 户 端的 名 字 解 析 软 件 以 及 服务 器 维护 了 一 个 以 往 名 字 
解析 结果 的 缓存 。 当 客户 发 出 一 个 名 字 查 询 请 求 时 ， 客 户 端的 名 字 解 析 软 件 就 查询 它 的 缓存 ， 如 
果 该 缓存 包含 通过 上 次 查询 该 名 字 得 到 的 一 个 最 近 的 结果 ， 那 么 将 该 结果 返回 给 客户 ， 否 则 ， 窗 
户 软件 将 着 手 从 某 个 服务 器 上 寻找 结果 ， 而 服务 器 又 有 可 能 返回 缓存 在 其 他 服务 器 中 的 数据 。 

缓存 是 名 字 服 务 性 能 的 关键 ， 即 使 在 名 字 服 务 器 崩溃 的 情况 下 ， 缓 存 也 可 以 帮助 维护 名 字 服 
务 器 以 及 其 他 服务 的 可 用 性 。 它 的 作用 非常 清晰 ， 即 通过 节约 与 名 字 服 务 器 的 通信 时 间 提 高 响应 
速度 。 缓 存 可 用 于 在 导航 路 径 上 消除 高 层 的 名 字 服 务 器 一 一 特别 是 根 服务 器 ， 同 时 在 一 些 服务 器 
产生 故障 的 情况 下 ， 人 允许 解析 过 程 继续 进行 。 

因为 名 字数 据 不 会 经 常 改变 ， 从 而 客户 端的 名 字 解 析 程 序 的 缓存 在 名 字 服 务 中 得 到 广泛 使 用 ， 
并 且 特 别 成 功 。 例 如 ， 计 算 机 或 服务 地 址 的 信息 很 可 能 会 在 儿 个 月 或 几 年 内 不 变 。 然 而 ， 一 个 名 
字 服 务 也 有 可 能 在 解析 过 程 中 返回 过 时 的 属性 信息 ， 例 如 过 时 的 地 址 。 


9.2.3 域名 系统 


域名 系统 是 一 个 名 字 服 务 ， 它 的 主 命名 数据 库 主 要 在 因特网 上 使 用 。 它 由 Mockapetris[1987] 
(RFC 1034) 设计 ， 用 于 替代 原 有 的 因特网 命名 方案 。 在 原 有 的 方案 中 ， 所 有 的 主机 名 和 地 址 都 保 
存在 一 个 中 央 主 文件 中 ， 需 要 这 些 信 息 的 计算 机 通过 FTP 下 载 信息 [Harrenstien et al.1985]。 此 方案 
有 以 下 三 个 缺点 ， 

。 计算 机 数量 众多 时 ， 缺 乏 可 伸缩 性 。 

* 本 地 组 织 希 望 管理 自己 的 命名 系统 。 

* 需要 通用 的 名 字 服 务 一 一 而 不 是 仅 查 找 计算 机 地 址 的 名 字 服 务 。 

DNS 命名 的 对 象 主要 是 计算 机 ，IP 地 址 作为 其 属性 存储 。 本 章 中 涉及 的 命名 域 在 DNS 中 简单 
地 称 作 域 。 然 而 原则 上 ， 所 有 的 对 象 都 能 被 命名 ， 同 时 对 象 名 字 的 结构 可 以 支持 各 种 各 样 的 实现 。 
组 织 和 部 门 可 以 管理 自己 的 命名 数据 。 因 特 网 DNS 绑 定 了 几 百 亿 个 名 字 ， 而 全 世界 的 计算 机 都 基 
于 该 DNS 查 找 。 任 何 名 字 均 可 被 任何 客户 解析 ， 这 是 由 名 字数 据 库 的 层次 化 分 区 、 命 名 数据 的 复 
制 以 及 缓存 来 实现 的 。 

域名 DNS 可 供 多 种 实现 使 用 ， 每 种 实现 都 可 以 拥有 自己 的 名 字 空 间 ， 但 实际 上 ， 只 有 一 种 
方法 应 用 最 广 ， 即 在 因特网 上 使 用 的 命名 方式 。 因 特 网 DNS 名 字 空 间 既 按 组 织 分 区 也 按 地 域 分 区 。 
名 字 中 最 高 级 的 域 位 于 右 端 。 最 初 在 因特网 上 广泛 使 用 的 顶级 组 织 域名 (也 称 作 通 用 域 ) 包括: 

。com; 商业 化 组 织 。 

“edu: 大 学 以 及 其 他 教育 机 构 。 

。gov; 美国 政府 机 构 。 

*。mil: 美国 军事 组 织 。 

。net: 主要 的 网 络 支 持 中 心 。 

"org: 上 文 未 提 及 的 组 织 。 

。int: 国际 组 织 。 

在 2000 年 的 早 些 时 候 ， 又 增加 了 一 些 新 的 顶级 组 织 域名 。 现 在 ， 可 以 通过 因特网 编号 管理 局 
[www.iana.org] 获 得 包含 全 部 通用 域名 的 列表 。 

此 外 ， 每 个 国家 拥有 自己 的 域名 : 

。us: 美国 

。uk: 英国 

。fr: 法 国 





242 第 9 草 





每 个 国家 ， 尤 其 是 美国 之 外 的 其 他 国家 ， 使 用 自己 的 域 来 区 分 国家 内 的 各 个 组 织 。 以 英国 为 
例 ， 有 co.uk 和 ac.uk 域 ， 分 别 对 应 于 com 和 edu (ac 代表 academic community) 。 值 得 注意 的 是 ， 尽 
管 有 相似 的 后 缀 uk ，doit,co.uk 这 样 的 域 也 能 在 Doit Ltd (一 家 英国 公司 ) 的 西班牙 办 事 处 拥有 数据 ， 
换 句 话说， 地 域 式 的 域名 仅仅 是 一 种 习惯 用 法 ， 域 名 事实 上 完全 独立 于 其 物理 位 置 。 

DNS 查询 ”因特网 DNS 主要 用 于 简单 的 主机 名 解析 与 电子 邮件 主机 查找 。 具 体内 容 如 下 : 

主机 名 解析 : 通常 ， 应 用 程序 使 用 DNS 将 主机 名 解析 为 耳 地 址 。 例 如 ， 当 一 个 web 浏览 器 获得 
一 个 包含 了 www.dcs.qmulac.uk 的 URL 之 后 ， 它 将 发 出 DNS 查询 ， 并 获得 相应 的 IP 地 址 。 正 如 第 4 
章 指 出 的 ， 浏 览 器 使 用 HTTP 协 议 与 占据 了 保留 端口 号 的 特定 IP 地 址 的 Web 服 务 器 通信 。FTP 服 务 
与 SMTP 的 工作 方式 类 似 。 例 如 ， 当 FTP 客 户 程序 获得 域名 ftp.dcs.qgmul.ac.uk 后 ， 它 会 发 出 一 个 
DNS 查 询 以 获得 该 域名 的 IP 地 址 ， 然 后 使 用 TCP 协 议 在 一 个 保留 端口 上 与 服务 器 通信 。www、ftp 
以 及 smtp 等 名 可 能 是 运行 服务 的 计算 机 的 实际 域名 的 别名 。 也 有 不 用 别名 的 例子 ， 考 虑 这 样 的 情 
况 ， 一 个 用 户 使 用 telinet 客 户 程 序 与 域名 为 jeans-pc.dcs.qmul.ac.uk 的 主机 联系 ， telnet 发 出 DNS 查 询 
获得 相应 的 IP 地 址 后 ， 与 服务 器 的 默认 端口 联系 。 

邮件 主机 定位 : 电子 邮件 软件 使 用 DNS 将 域名 解析 为 邮件 主机 的 IP 地 址 ， 邮 件 主机 用 于 接收 
相应 域 的 邮件 。 例 如 ， 当 需要 解析 tom@dcs.rnx.ac.uk 时 ， 使 用 地 址 dcs.rnx.ac.uk 查 询 DNS ， 类 型 指 
定 为 mail。 如 果 存 在 对 应 的 邮件 服务 器 ， 那 么 DNS 会 返回 可 接收 dcs.rnx.ac.uk 的 邮件 的 主机 的 域名 
列表 (有 了 时 可 选择 返回 IP 地 址 })，DNS 可 能 会 返回 多 于 一 个 的 域名 ， 这 样 ， 当 主 邮件 服务 器 因 某 种 
原因 不 可 用 时 ， 邮 件 软 件 可 以 尝试 使 用 其 他 服务 器 。DNS 对 每 个 邮件 主机 均 返 回 一 个 整 型 的 优先 
值 ， 表 示 邮 件 主 机 应 被 尝试 的 顺序 。 

有 些 安装 版 本 也 包括 了 其 他 类 型 的 查询 ， 但 远 没有 上 面 两 种 查询 应 用 广泛 。 它 们 是 : 

反 向 解析 : 一 些 软件 需要 通过 IP 地 址 获得 域名 。 这 与 正常 的 主机 名 查询 恰恰 相反 。 对 于 接收 
查询 的 名 字 服 务 器 ， 仅 当地 址 在 自己 的 域 中 时 才 会 应 答 。 

主机 信息 : DNS 可 以 存储 主机 域名 相应 的 计算 机 的 体系 结构 类 型 与 操作 系统 信息 。 有 人 建议 
不 应 实现 该 选项 ， 因 为 它 为 那些 试图 在 未 授权 情况 下 访问 计算 机 的 黑客 提供 了 有 用 的 信息 。 

已 知 的 服务 : 有 些 名 字 服 务 器 支持 这 样 的 服务 : 给 定 计算 机 域名 ， 名 字 服 务 返回 该 计算 机 运 
行 的 一 组 服务 (如 telnet、FTP) 以 及 用 于 获得 服务 的 协议 〈 即 因特网 的 UDP 或 TCP 协 议 ) 。 

原则 上 ，DNS 可 以 存储 任意 属性 。 一 个 查询 通过 域名 、 类 别 与 类 型 三 者 来 定义 。 因 特 网 上 域 
名 的 类 别 是 IN。 查 询 的 类 型 定义 是 否 需要 一 个 IP 地 址 、 一 个 邮件 主机 、 一 个 名 字 服 务 器 或 其 他 类 
型 信息 。 特 殊 域 in-addr.arpa 存 储 的 是 IP 地 址 ， 可 以 用 于 反 向 查询 。 类 别 属 性 用 于 区 分 因特网 命名 
数据 库 与 实验 阶段 的 DNS 命名 数据 库 。 一 个 给 定 的 数据 库 会 有 一 组 类 型 定义 ， 因特网 数据 库 的 类 
型 定义 参见 图 9-5。 

DNS 名 字 服 务 器 ”通过 结合 使 用 分 区 、 复 制 以 及 在 需要 地 点 的 最 近 处 缓存 命名 数据 库 等 方法 ， 
可 以 解决 伸缩 性 问题 。DNS 数 据 库 分 布 在 一 个 逻辑 服务 器 网 络 上 。 每 个 服务 器 存储 命名 数据 库 的 一 
部 分 一 一 主要 是 本 地 域 的 数据 。 大 多 数 查询 涉及 本 地 域 的 计算 机 ， 并 且 由 该 域 中 的 服务 器 给 出 应 答 ， 
然而 ， 每 个 服务 器 记录 了 其 他 名 字 服 务 器 的 域名 与 地 址 ， 这 样 可 满足 对 本 地 域 以 外 对 象 查询 的 需要 。 

DNS 命名 数据 被 划分 为 区 域 ， 一 个 区 域 包含 下 列 数据 ; 

* 除 那些 由 更 低层 的 权威 机 构 管理 的 子 域内 的 数据 外 ， 一 个 域 里 名 字 的 所 有 属性 数据 。 例 如 ， 

一 个 区 域 除了 包括 每 个 系 〔 如 计算 机 科学 系 dcs.qmul.ac.uk) 持 有 的 数据 外 ， 还 包括 属于 伦敦 
大 学 Queen Mary College (qmul.ac.uk) 的 数据 。 

“至 少 两 台 名 字 服 务 器 的 名 称 与 地 址 ， 这 些 服务 器 提供 该 区 域 的 权威 数据 ， 而 且 数 据 的 版 本 被 

认为 是 最 新 的 。 

“一些 名 字 服 务 器 的 名 字 ， 这 些 名 字 服 务 器 存储 了 被 委托 的 子 域 的 权威 数据 ， 以 及 给 出 了 服务 

器 IP 地 址 后 的 一 些 “ 粘 合 ” 数 据 。 
* 区域 管 理 参数 ， 例 如 管理 区 域 数 据 缓存 与 复制 的 参数 。 
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一 个 服务 器 可 以 拥有 零 个 或 多 个 区 域 的 权威 数据 。 为 了 在 一 个 服务 器 发 生 故 障 的 情况 下 ， 名 
字数 据 依然 可 用 ，DNS 体 系 结构 规定 每 个 区 域 必须 至 少 在 两 台 服 务 器 上 复制 。 

系统 管理 员 将 一 个 区 域 的 数据 送 入 一 个 主 控 文件 中 ， 此 文件 是 该 区 域 权威 数据 的 来 源 。 有 两 
种 服务 器 可 提供 权威 数据 : 主 服 务 器 直接 从 本 地 主 控 文 件 中 读 取 区 域 数 据 。 交 服务 器 从 主 服务 器 
下 载 区 域 数 据 。 它 们 周期 性 地 与 主 服务 器 通信 ， 以 检验 次 服务 器 上 的 版 本 是 否 与 主 服 务 器 上 数据 
版 本 的 一 致 。 若 次 服务 器 上 的 版 本 过 期 ， 则 主 服务 器 将 最 新 的 版 本 发 送 给 它 。 管 理 员 将 次 服务 器 
检查 过 期 的 频率 作为 一 个 区 域 参数 设 定 ， 通 常 它 的 值 是 一 天 一 次 或 两 天 一 次 。 

任何 服务 器 均 可 缓存 其 他 服务 器 的 数据 ， 以 避免 在 解析 名 字 时 再 与 那些 服务 器 联系 请 求 数据 。 
这 样 做 的 附带 条 件 是 当 客户 收 到 缓存 数据 时 ， 需 被 告知 数据 是 不 可 信 的 。 区 域 中 的 每 个 条 目 有 一 
个 存活 期 。 当 一 个 非 权威 服务 器 缓存 来 自 权 威 服务 器 的 数据 时 ， 它 会 记录 存活 期 。 它 将 仅 在 存活 
期 内 向 客户 提供 缓存 数据 ， 对 于 超过 存活 期 后 的 查询 ， 服 务 器 需要 重新 与 权威 服务 器 联系 ， 核 对 
它 的 数据 。 这 是 一 个 有 用 的 特征 ， 它 减少 了 网 络 流量 ， 同 时 保留 了 系统 管理 员 的 灵活 性 。 在 预料 
到 属性 不 会 经 常 改变 时 ， 可 以 给 它们 赋予 相当 长 的 存活 期 。 如 果 管 理 员 知道 属性 可 能 很 快 就 会 改 
变 ， 那 么 他 /她 将 相应 地 减少 属性 的 存活 期 。 

图 9-4 给 出 了 2001 年 时 DNS 数 据 库 的 部 分 安排 。 注 意 ， 在 实际 中 ，a.root-servers.net 这 样 的 根 服 
务 器 除了 保存 第 一 级 域名 外 ， 也 会 保存 多 个 级 别 的 域 条 目 。 这 样 ， 在 域名 被 解析 时 ， 可 以 降低 导 
航 的 次 数 。 根 名 字 服 务 器 拥有 顶级 域名 字 服 务 器 的 权威 条 目 。 它 们 也 同时 是 com、edu 等 常用 顶级 
域 的 权威 名 字 服 务 器 。 然 而 ， 根 名 字 服 务 器 不 是 国家 域 的 名 字 服 务 器 。 例 如 ，uk 域 有 若干 名 字 服 
务 器 ， 其 中 一 个 被 称 为 nsl.nic.net。 这 些 名 字 服 务 器 知道 英国 二 级 域 (如 ac.uk 与 co.uk) 的 名 字 服 
务 器 。 域 ac.uk 的 名 字 服 务 器 知道 本 国 所 有 大 学 域 的 名 字 服 务 器 ， 例 如 qmul.ac.uk 或 ic.ac.uk。 在 某 
些 情况 下， 一 个 大 学 域 将 某 些 管 理 权 委派 给 一 个 子 域 ， 如 dcs.qmul.ac.uk。 


a.root-servers 
net (root) 






uk 
purdue.edu 
ahoo.co 









nsi.nic.uk 
(uk) 





ns.purdue.edu 
(purdue.edu) 


ns0Oja.net 
(ac.uk) *,purdue. 
, edu 









alpha.qmul.ac.uk dnsO.dcs.qmul.ac.uk dnsO-doc.ic.ac 
(qmul.ac.uk) {dcs.qmul.ac.uk) uk(ic.ac.uk) 


注意 : 名 字 服 务 器 名 用 斜体 ， 而 相应 的 域 在 括号 中 。 箭头 指示 了 名 字 服 务 器 入 口 。 
图 9-4 DNS 名 字 服 务 器 (在 2001 年 时 ) 


根 域 信息 由 主 服务 器 复制 到 若干 次 服务 器 上 。 尽 管 如 此 ， 根 据 Liu 与 Aibitz[1998] 的 调查 ， 一 些 
根 服务 器 依然 要 做 到 每 秒 接收 约 1000 个 查询 。 所 有 DNS 服务 器 都 会 存储 一 个 或 多 个 根 名 字 服 务 器 
的 地 址 ， 这 些 服务 器 的 地 址 通常 不 会 改变 。DNS 服 务 器 通常 也 会 存储 父 域 的 一 个 权威 服务 器 的 地 
址 。 查 询 www.berkeley.edu 这 样 的 具有 三 个 部 分 的 域名 ， 最 坏 情 况 下 需要 两 步 导 航 ， 第 一 步 是 向 存 
储 了 合适 的 名 字 服 务 器 条 目的 根 服务 器 发 出 请 求 ， 第 二 步 则 向 第 一 次 查询 得 到 的 服务 器 发 出 请 求 。 

参见 图 9-4， 域 名 jeans-pc.dcs.qmul.ac.uk 可 以 使 用 本 地 服务 器 dns0.dcs.qmul.ac.uk， 从 域 
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dcs.qmulac.uk 查 找到 。 该 服务 器 未 存储 Web 服 务 器 www.ic.ac.uk 的 任何 条 目 ， 但 它 缓存 了 ic.ac.uk 
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的 条 目 (从 权威 服务 器 ns0.ja.net 中 获得 )。 服 务 器 dns0-doc.ic.ac.uk 可 用 于 解析 爹 名 。 

导航 与 查询 处 理 DNS 客户 被 称 为 解析 器 ， 通 常 被 实现 为 库 代 码 。 它 接收 查询 后 ， 将 查询 格 
式 化 为 符合 DNS 协议 格式 的 消息 ， 再 与 一 个 或 多 个 名 字 服 务 器 通信 。 通 信 时 一 般 使 用 简单 的 请 求 一 
应 答 协议 ， 通常 情况 下 使 用 因特网 的 UDP 包 (DNS 服务 器 使 用 的 是 一 个 已 知 的 端口 号 ) 。 解 析 器 有 
可 能 超时 ， 必 要 时 需要 重 发 查询 。 解 析 器 可 被 配置 成 与 一 组 带 优先 级 的 初始 名 字 服 务 器 联系 ， 以 
应 付 某 个 或 某 几 个 服务 器 不 可 用 的 情况 。 

DNS 体系 结构 能 够 处 理 递 归 导 航 与 迭代 导航 两 种 情况 。 当 与 名 字 服 务 器 联系 时 ， 解 析 器 指定 
需要 何 种 类 型 的 导航 。 然 而 ， 名 字 服 务 器 并 不 一 定 实现 递归 导航 。 正 如 上 面 所 指出 的 ， 和 迭代 导航 
会 占用 服务 器 线程 ， 这 意味 着 其 他 请 求 会 被 延迟 。 

为 节省 网 络 通信 ，DNS 协 议 允 许 将 多 个 查询 打包 到 一 个 请 求 消息 中 ， 相 应 地 ， 名 字 服 务 器 可 
以 在 应 答 消息 中 发 送 多 个 回答 。 

资源 记录 ”区域 数据 以 多 种 固定 类 型 的 资源 记录 形式 存储 到 名 字 服 务 器 的 文件 中 。 对 于 因 特 
网 数据 库 ， 包 含 图 9-5 所 示 的 类 型 。 每 条 记录 指 的 是 一 个 域名 (在 图 中 未 表示 出 来 )。 除 了 TXT 条 目 ， 
表 中 的 条 目 大 多 在 上 文 已 提 及 。TXT 条 目 主 要 是 为 了 存储 域名 的 任意 信息 。 表 中 的 数据 是 基于 
2001 年 时 的 情况 。 


记录 类 型 含 义 主要 内 容 
Ee 一 ] 














计算 机 地 址 IP 号 
NS 权威 名 字 服 务 器 服务 器 的 域名 
CNAME 别名 的 标准 名 别名 的 域名 
SOA 标识 了 一 个 区 域 数 据 的 开始 管理 该 区 域 的 参数 
WKS 已 知 服务 的 描述 服务 名 与 协议 的 列表 
PTR 域名 指针 〈 反 向 查找 ) 域名 
HINFO 主机 信息 机 器 体系 结构 与 操作 系统 
MX 邮件 交换 < 优先 级 ， 主 机 > 列表 
TXT 文本 字符 串 任意 文本 





图 9-5 DNS 资源 记录 
一 个 区 域 的 数据 从 一 个 SOA 类 型 的 记录 开始 ， 该 记录 包含 区 域 参数 ， 参 数 可 指定 版 本 号 以 及 
次 服务 器 刷新 副本 的 频率 等 。SOA 类 型 的 记录 后 紧 跟着 类 型 为 NS 的 记录 集合 ， 用 于 指定 域 的 名 字 
服务 器 ， 接 着 是 类 型 为 MX 的 记录 集合 ， 用 于 指出 邮件 主机 的 优先 级 和 域名 。 例 如 ， 域 dcs.qmul. 
ac.uk 的 数据 库 中 记录 的 一 部 分 如 图 9-6 所 示 ， 记 录 中 的 1D 表 示 存 活期 为 1 天， 


类 型 





dns0 
dnsi 
cancer.ucs.ed.ac.uk 
1 maill.qmul.ac.uk 


2 mail2.qmul.ac.uk 





图 9-6 DNS 区 域 数 据 记 录 
后 面 的 类 型 为 A 的 记录 会 给 出 两 个 名 字 服 务 器 一 -dns0 与 dns1 的 IP 地 址 。 邮 件 主机 以 及 第 三 个 
名 字 服 务 器 的 IP 地 址 在 域 相应 的 数据 库 中 给 出 。 
对 于 dcs.qmul.ac.uk 这 样 较 低层 的 区 域 ， 数 据 库 剩 下 的 主要 记录 是 A 类 型 的 ， 它 将 计算 机 的 域 
名 映射 到 一 个 IP 地 址 。 对 于 众所周知 的 服务 ， 数 据 库 可 能 会 包含 一 些 别 名 ， 例 如 ; 





的 
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域名 存活 期 类 别 类 型 值 
Www 1D IN CNAME apricot 
apricot 1D IN A 138.37.88.248 





如 果 该 域 还 有 子 域 ， 那 么 将 会 有 更 多 的 NS 类 型 的 记录 ， 这 些 记 录 指 定 了 子 域 的 名 字 服 务 器 ， 
而 这 些 服务 器 也 会 有 自己 的 A 类 型 的 条 目 。 例 如 ，qmul.ac.uk 的 数据 库 对 于 子 域 dcs.qmul.ac.ak 的 名 
字 服 务 器 ,会 有 下 列 记录 : 
--- 





域名 存活 期 类 别 类 型 值 
dcs 1D IN NS dns0.dcs 
dns0.dcs 1ID IN A 138.37.88.249 
dcs 1D IN NS dnsl.dcs 
dnsl,dcs iD IN A 138.37.94.248 
dcs 1D IN NS cancer.ucs.ed.ac.uk 


名 字 服 务 器 的 负载 共享 ， 对 于 某 些 站 点 ， 诸 如 Web、FTP 等 常用 的 服务 由 同一 网 络 上 的 一 组 计 
算 机 同时 支持 。 在 这 种 情况 下 ， 该 组 的 每 个 成 员 使 用 的 是 同一 个 域名 。 当 一 个 域名 由 多 台 计 算 机 
共享 时 ， 名 字 服 务 器 对 该 组 的 每 台 计算 机 都 有 一 条 记录 ， 记 录 其 IP 地 址 。 对 于 名 字 会 涉及 多 条 记 
录 的 查询 ， 名 字 服 务 器 根据 循环 调度 方法 返回 IP 地 址 。 这 样 ， 后 续 的 客户 访问 被 分 发 到 不 同 的 服 
务 器 ， 以 便服 务 器 之 间 能 均衡 负载 。 而 缓存 可 能 会 破坏 这 种 方案 ， 因 为 一 旦 一 个 非 权威 的 名 字 服 
务 器 或 客户 在 它 的 缓存 中 包含 了 某 个 服务 器 的 IP 地 址 ， 那 么 它 会 持续 地 使 用 该 地 址 。 为 消除 这 种 
后 果 ， 资 源 记录 一 般 给 定 较 短 的 存活 期 。 

DNS 的 BIND 实 现 ”Berkeley 因 特 网 域名 系统 (Berkeley Internet Name Domain, BIND) 是 运行 
UNIX 的 计算 机 的 DNS 实现 。 客 户 程序 通过 链 人 BIND 软 件 库 作为 名 字 服 务 的 解析 器 。DNS 名 字 服 
务 器 所 在 的 计算 机 运行 已 命名 的 守护 进程 。 

BIND 人 允许 使 用 三 类 名 字 服 务 器 : 主 服务 器 、 次 服务 器 以 及 仅 提 供 缓存 功能 的 服务 器 。 已 命名 
的 程序 根据 配置 文件 内 容 仅 实现 三 类 中 的 一 类 服务 器 。 前 两 类 服务 器 上 文 已 介绍 过 。 缓 存 服务 器 
从 一 个 配置 文件 中 读 取 足 够 多 的 权威 服务 器 的 名 字 与 地 址 用 于 解析 。 因 此 ， 缓 存 服务 器 仅 存 储 这 
些 数据 以 及 在 为 客户 解析 名 字 时 所 积累 的 数据 。 

一 个 组 织 通 常 具 有 一 个 主 服务 器 以 及 在 站 点 的 不 同 局 域 网 段 提供 名 字 服务 的 一 个 或 多 个 次 服 
务 器 。 另 外 ， 每 个 计算 机 常常 运行 自己 的 缓存 服务 器 ， 以 降低 网 络 开销 ， 加 速 响应 时 间 。 

关于 DNS 的 讨论 考虑 到 因特网 命名 数据 的 数量 以 及 网 络 的 规模 ，DNS 的 因特网 实现 获得 了 
较 短 的 平均 查询 响应 时 间 。 我 们 看 到 ， 获得 上 述 效 果 是 通过 对 命名 数据 进行 分 区 、 复 制 以 及 缓存 
而 达到 的 。 命 名 的 对 象 主要 是 计算 机 、 名 字 服 务 器 以 及 邮件 主机 。 计 算 机 (主机 ) 名 到 IP 地 址 的 
上 映射 以 及 名 字 服 务 器 与 邮件 主机 的 标识 等 信息 的 改变 不 太 频繁 ， 因 此 ， 缓 存 与 复制 可 在 一 个 相对 
宽松 的 环境 中 进行 。 

DNS 人 允许 命名 数据 不 完全 一 致 ， 即 当 命 名 数据 修改 时 ， 其 他 服务 器 在 几 天 时 间 内 仍 会 给 提供 
客户 过 期 的 信息 ， 这 里 没有 使 用 第 15 章 中 研究 的 复制 技术 。 然 而 ， 只 有 在 客户 试图 使 用 过 期 信息 
的 情况 下 ， 不 一 致 性 才 会 产生 不 好 的 后 果 。DNS 自 己 未 指出 如 何 探测 过 期 数据 。 

除 计算 机 外 ，DNS 还 命名 了 一 种 特殊 的 服务 : 基于 每 个 域 的 邮件 服务 。DNS 假 设 在 每 个 指定 
的 域 中 仅 有 一 个 邮件 服务 器 ， 因 此 ， 用 户 无 需 显 式 地 用 名 字 指 出 服务 。 电 子 邮件 应 用 在 与 DNS 服 
务 器 联系 时 ， 通 过 使 用 合适 的 查询 类 型 ， 透 明 地 选择 该 服务 。 

总 而 言 之 ，DNS 存 储 的 不 同类 型 的 名 字数 据 是 非常 有 限 的 ， 但 这 在 诸如 电子 邮件 这 样 的 应 用 
中 已 经 足够 了 ， 因为 在 电子 邮件 这 类 应 用 中 可 以 将 它们 自己 的 名 字 机 制 加 到 域名 之 上 。 DNS 数 据 
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库 作为 对 大 量 因特网 用 户 有 用 的 、 最 低层 的 公共 命名 者 的 地 位 应 该 是 值得 质疑 的 。DNS 并 不 是 为 
因特网 设计 的 唯一 名 字 服 务 ， 它 与 本 地 名 字 与 目录 服务 共存 ， 这 两 种 服务 都 存储 了 与 局 部 需求 有 
关 的 数据 (如 Sun 的 网 络 信息 服务 (该 服务 存储 了 加 密 的 口令 ) 或 者 微软 的 活动 目录 服务 
[www.microsoft.com] ， 该 服务 存储 了 一 个 域 中 所 有 资源 的 详细 信息 )。 

DNS 设 计 的 一 个 潜在 的 问题 是 ， 它 的 设计 过 于 严格 ， 很 难 改 变 它 的 名 字 空 间 的 结构 ， 同 时 ， 
缺乏 定制 名 字 空 间 以 满足 本 地 需求 的 能 力 。 在 9.4 节 的 全 局 名 字 服 务 的 实例 研究 中 ， 考 虑 了 命名 设 
计 在 这 些 方面 的 需求 。 在 此 之 前 ， 我 们 先 来 介绍 目录 服务 。 


9.3 目录 服务 


我 们 已 描述 了 名 字 服 务 如 何 存 储 < 名 字 ， 属 性 > 对 集合 以 及 如 何 通 过 名 字 查 找 属性 。 很 自然 地 ， 
我 们 会 考虑 上 述 情 况 的 另 一 面 ， 即 将 属性 作为 查找 的 关键 字 。 在 这 些 服务 中 ,文本 名 仅仅 被 看 作 
是 一 个 属性 。 有 时， 用 户 希 望 找到 某 一 个 人 或 资源 ， 他 不 知道 对 方 的 名 字 ， 仅 知道 对 方 的 一 些 属 
性 。 例 如 ， 一 个 用 户 可 能 会 问 :“ 电 话 号 码 为 020-555 9980 的 用 户 名 是 什么 ? ”有 了 时， 用 户 需 要 一 
个 服务 ， 但 只 要 服务 可 以 被 方便 地 访问 ， 用 户 并 不 关注 系统 中 的 哪个 实体 提供 了 该 服务 。 例 如 ， 
用 户 会 问 :“ 本 大 厦 的 哪 台 计 算 机 是 运行 了 MacOs X 操 作 系统 的 Macintosh 机 ? ”或 者 “我 在 哪儿 可 
以 打印 一 个 高 分 辩 率 的 彩色 图 像 ? ” 

具有 下 列 功能 的 服务 称 为 目录 服务 ， 存储 了 一 组 名 字 和 属性 的 绑 定 ， 条 目的 查找 基于 属性 规 
范 。 目 录 服 务 的 例子 有 : 微软 的 活动 目录 服务 、X.500 以 及 它 相 关 的 LDAP (在 9.5 节 描述 )、 
Univers[Bowman et al. 1990] 和 Profile[Peterson 1988]。 目 录 服 务 有 时 也 称 为 黄页 服务 (yellow 
pages service) ， 而 传统 的 名 字 服 务 被 称 为 白 页 服务 ， 这 与 不 同类 型 的 电话 得 目录 相似 。 目 录 服 务 
有 时 也 被 称 为 基于 属性 的 名 字 服 务 。 

目录 服务 返回 满足 特定 属性 的 所 有 对 象 的 属性 集合 。 例 如 , “TelephoneNumber = 020-555 
9980” 这 样 的 请 求 会 返回 {name = John Smith’, “TelephoneNumber = 020-555 9980’, ‘emailAddress 
= john@dcs.gormenghast.ac.uk`…}。 客 户 会 指定 感 兴趣 的 属性 子 集 ， 例 如 ， 仅 返回 匹配 对 象 的 邮 
件 地 址 。X.500 以 及 其 他 目录 服务 也 允许 通过 传统 的 层次 型 文本 名 查找 对 象 。 将 在 19.4 节 描述 的 统 
一 目录 和 发 现 服务 (UDDI) 提供 了 关于 各 个 机 构 以 及 它们 提供 的 服务 的 信息 的 白 页 和 黄页 服务 。 

除了 UDDI， 发 现 服务 通常 特 指 用 于 自发 网 络 环境 下 设备 提供 的 服务 的 目录 服务 。 正 如 在 2.2.3 
节 中 所 述 ， 自 发 网 络 中 的 设备 连接 与 断 连 是 不 可 预测 的 。 发 现 服务 与 其 他 目录 服务 的 本 质 区 别 在 
于 一 般 目录 服务 的 地 址 通常 是 众所周知 的 ， 而 且 在 客户 端 是 预先 配置 好 的 。 但 是 ， 在 自发 网 络 环 
境 下 ， 一 个 设备 会 随时 加 入 ， 这 就 会 导致 组 播 导航 (至 少 这 个 设备 第 一 次 访问 这 个 本 地 发 现 服务 
时 会 这 样 )。16.2 节 会 详细 讨论 发 现 服务 。 

属性 用 于 指定 对 象 显然 比 名 字 更 有 效 。 在 不 知道 名 字 的 情况 下 ， 可 以 通过 编写 程序 来 ， 根 据 
精确 的 属性 规范 选择 对 象 。 属 性 的 另 一 个 优点 是 不 会 将 组 织 机 构 内 部 的 结构 暴露 给 外 界 ， 而 使 用 
组 织 机 构 划 分 的 名 字 会 有 这 种 风险 。 然 而 ， 使 用 文本 名 相对 简单 ， 这 使 得 在 很 多 应 用 中 ， 名 字 服 
务 不 可 能 被 基于 属性 的 命名 方法 替代 。 


9.4 实例 研究 : 全 局 名 字 服 务 


全 局 名 字 服 务 (GNS) 是 由 Lampson 与 DEC 系统 研究 中 心 的 同事 [Lampson 1986] 设 计 与 实现 的 ， 
它 用 于 提供 资源 定位 、 邮 件 寻 址 以 及 认证 等 功能 。GNS 的 设计 目标 已 在 9.1 节 的 最 后 列 出 ， 这 些 目 
标 反映 的 事实 是 : 互联 网 使 用 的 名 字 服 务必 须 支持 一 个 名 字数 据 库 ， 该 数据 库 可 以 扩展 到 包含 数 
百 万 台 计算 机 的 名 字 以 及 数 十 亿 用 户 的 邮件 地 址 。GNS 的 设计 者 也 意识 到 ， 名 字数 据 库 可 能 会 
很 长 的 生命 周期 ， 它 必须 在 规模 由 小 变 大 以 及 底层 网 络 发 展 的 情况 下 有 效 地 工作 。 在 此 过 程 中 ， 
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名 字 空 间 的 结构 可 以 改变 以 反映 组 织 结构 的 变化 。 名 字 服 务必 须 允 许 其 中 的 个 人 人、 组织、 小 组 的 
名 字 发 生变 化 。 除 此 以 外 ， 也 应 允许 一 个 公司 被 另 一 个 公司 接管 时 ， 名 字 结 构 发 生变 化 。 在 本 节 
中 ,我们 重点 描述 允许 这 些 变化 的 设计 要 点 。 

由 于 GNS 可 能 在 大 规模 分 布 式 环境 中 运行 ， 具 有 海量 命名 数据 库 ， 因 此 缓存 的 使 用 成 为 设计 
要 点 ， 在 这 种 情况 下 维护 数据 库 条 日 的 所 有 副本 的 完全 一 致 性 就 变 得 困难 。 决 定 采取 的 缓存 一 臻 
性 策略 基于 下 面 的 假设 ; 数据 库 的 更 新 将 是 非 频 繁 的 ， 而 因为 客户 可 以 探测 和 修复 已 过 期 命名 数 
据 的 使 用 ， 所 以 慢 速 发 送 数据 更 新 是 可 以 接受 的 。 

GNS 管 理 的 名 字数 据 库 由 一 个 包括 名 字 与 值 的 目录 树 构成 。 目 录 命 名 方式 可 以 是 相对 于 根 或 





相对 于 某 个 工作 目录 的 多 部 分 路 径 名 ， 这 与 UNIX 文 件 系统 DI:599(EC) 

的 文件 名 很 相似 。 每 个 目录 被 赋予 一 个 整数 作为 唯一 的 目录 人 
标识 符 (Directory Identifier, D1)。 本 节 中 ， 我 们 使 用 斜体 字 D1:543 py/ UK FR WD1:574 
表示 目录 的 DI， 如 EC 是 EC 目录 的 标识 。 目 录 包 含 了 一 组 名 | 1 
字 与 引用 。 目 录 树 的 叶子 中 存储 的 值 被 组 织 成 值 树 ， 这 样 与 fr 


名 字 相关 的 属性 可 以 是 结构 化 的 值 。 pra22 /omur 

GNS 中 的 名 字 有 两 个 部 分 : < 目录 名 ， 值 名 >。 第 一 部 分 HT po so 
标识 了 一 个 目录 , 而 第 二 部 分 指 的 是 值 树 或 是 值 树 的 一 部 分 。 和 
例如 ， 参 考 图 9-7， 在 图 中 为 说 明 方便 ，DI 都 是 小 整数 ， 尽 aoxes A password 
管 在 实际 中 为 保证 唯一 性 ，DI 会 从 很 广 的 整数 范围 中 选择 。 。 Alpha 
目录 QMUL 下 的 用 户 Peter.Smith 的 属性 会 存储 在 一 个 名 为 


eta .Gamma 


<ECIUK/AC/QMUL, Peter Smith> 的 值 树 中 。 该 值 树 包 含  “ 〇 O | 
个 口令 和 多 个 邮件 地 址 ,口令 可 以 通过 <EC/UK/AC/QMUL， ”图 7 GNS 中 用 户 Peter.Smith 的 
Peter.Smith/password> 方 式 来 引用 ， 而 每 个 邮件 地 址 都 作为 目录 树 和 值 树 


值 树 的 单独 节点 ， 以 <EC/UK/AC/QMUL, Peter.Smith/mailboxes> 作 为 节点 名 列 出 。 

目录 树 被 分 区 后 存储 在 多 个 服务 器 中 ， 每 个 分 区 又 由 多 台 服 务 器 复制 。 首 先 要 维护 在 两 个 或 
多 个 并 行 修改 发 生 时 树 的 一 致 性 。 例 如 ， 两 个 用 户 试图 同时 用 同一 名 字 创 建 一 个 条 目 ， 这 时 应 该 
仅 有 一 人 能 成 功 。 复 制 目录 带 来 了 另 一 个 一 致 性 问题 ， 通 过 一 个 能 够 保证 最 终 一 致 性 的 异步 更 新 
分 布 式 算法 能 解决 该 一 致 性 问题 ， 但 不 能 保证 所 有 的 副本 都 是 最 新 的 。 在 该 问题 上 达到 这 种 级 别 
的 一 致 性 被 认为 是 令 人 满意 的 。 

适应 改变 ”现在 我 们 探讨 与 适应 名 字数 据 库 的 增长 和 改变 有 关 的 设计 方面 。 在 客户 与 管理 员 
层 ， 可 以 通过 正常 的 方式 扩展 目录 树 来 适应 增长 。 但 我 们 可 能 会 集成 两 个 原来 分 离 的 GNS 名 字 树 。 
例如 ， 我 们 如 何 将 图 9-7 中 的 EC 目录 下 的 数据 库 与 NORTH 4MERIC4 数 据 库 进行 集成 ?图 9-8 显 示 
了 在 要 合并 的 树 的 根 之 上 ，3 引 入 了 新 根 WORLD。 这 个 技术 非常 简单 直观 ， 但 对 继续 使 用 集成 前 的 
“ 根 ”作为 名 字 的 客户 有 什么 影响 呢 ? 例如 ，</UK/AC/QMUL, Perter.Smith> 是 在 集成 之 前 客户 使 
用 的 名 字 。 它 是 一 个 绝对 名 (因为 它 以 “/” 开 始 )， 但 根 指 的 是 EC， 而 不 是 WORLD。EC 与 
NORTH AMERICA 是 工作 根 ， 工 作 根 是 一 个 初始 上 下 文 ， 这 时 必须 查询 以 根 “/” 开 始 的 名 字 。 

唯一 目录 标识 符 的 存在 可 用 于 解决 这 个 问题 。 每 个 程序 的 工作 根 必须 作为 执行 环境 的 一 部 分 
(与 一 个 程序 的 工作 目录 相同 )。 当 一 个 在 欧盟 的 客户 使 用 形 如 </UK/AC/QMUL, Perter.Smith> 的 名 
字 时 ， 它 的 本 地 用 户 代理 由 于 知道 它 的 工作 根 ， 会 在 名 字 前 添加 目录 标识 符 EC(#599)， 从 而 构造 
出 名 字 <#599/UK/AC/QMUL, Perter.Smith>。 用 户 代理 在 一 个 对 GNS 服 务 器 的 查询 请 求 中 发 送出 该 
派生 名 。 用 户 代理 对 指向 工作 目录 的 相对 名 使 用 相似 的 方法 。 了 解 新 的 配置 的 客户 也 会 向 GNS 服 
务 器 提供 绝对 名 ， 它 指向 包含 了 所 有 目录 标识 符 的 概念 上 的 超 根 目录 ， 例 如 ，<WORLD/EC/UK/ 
AC/QMUL，Peter.Smith>， 但 设计 无 法 假设 所 有 的 客户 考虑 到 该 变化 而 被 更 新 。 
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DI:633(WORLD) 


也 知 目 英 : 

#599=#633/EC ar 过 | | 
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N 
| DEL642 人 | 
Tg UK FRAADL574 DL:732 AUS CANADA 27 


U 
i ED | 
图 9-8 在 一 个 新 根 下 合并 树 


上 述 技术 解决 了 逻辑 问题 ， 它 甚至 在 插入 一 个 新 的 真实 根 的 情况 下 ， 依 然 允许 用 户 以 及 客户 
程序 继续 使 用 已 定义 的 相对 于 旧 根 的 名 字 。 但 这 样 做 产生 了 一 个 实现 问题 : 在 包含 上 百 万 目录 的 
分 布 式 名 字数 据 库 中 ， 若 仅 给 定 #599 这 样 的 且 录 标识 符 ，GNS 服 务 如 何 定位 一 个 目录 ?GNS 的 解 
决 方案 是 在 名 字数 据 库 的 当前 真实 根 下 包含 一 个 表 ， 称 为 “已 知 目录 ” 表 ， 该 表 列 出 了 所 有 作为 
工作 根 使 用 的 目录 ， 如 EC。 一 旦 名 字数 据 库 真实 的 根 发 生 改 变 ， 如 图 9-8 所 示 ， 就 会 向 所 有 GNS 服 
务 器 通知 真实 根 的 新 位 置 。 然 后 它们 可 使 用 常用 方式 解释 WORLD/EC/UK/AC/QMUL (指向 真实 
根 ) 形式 的 名 字 ， 也 可 使 用 “已 知 目录 ” 表 将 #599/UK/AC/QMUL 格 式 的 名 字 翻 译 成 以 真实 根 开始 
的 完全 路 径 名 。 

GNS 也 支持 数据 库 的 重 构 ， 以 适应 组 织 变化 。 假 设 美国 成 为 欧盟 的 一 部 分 (! )。 图 9-9 给 出 
了 新 的 目录 树 。 但 如 果 US 子 树 仅 被 移 到 EC 目录 下 ， 以 WORLD/NORTH AMERICA/US 开 始 的 名 字 
将 无 法 继续 工作 。GNS 采 取 的 方法 是 增加 一 个 “符号 链接 ”替代 原 有 的 US 条 目 ( 见 图 9-9 中 加 黑 的 
一 部 分 )。GNS 目 录 查 找 过 程 将 链接 重 定 向 到 新 位 置 上 的 US 目录 。 


D1:633(WORLD) 




















已 知 目录 : 

#599=#633/EC a | | 

03NORrH AMERICA| Ec NORTH AMERICA 

DL:599 D1:642 
_ | US us LN 
Ar D1543 pg UK FR D1:57 DEL732 D1457 
I TT i111 
#633/EC/US 


图 9-9 重 构 目 录 


GNS 的 讨论 GNS 由 Grapevine[Birrell et al. 1982] 以 及 Clearinghouse[Opeen and Dalal 1983] 发 
展 而 来 ， 这 两 个 系统 是 Xerox Corporation 成 功 开发 的 主要 面向 邮件 发 送 名 字 系 统 。GNS 成 功 地 解决 
了 可 伸缩 性 与 可 配置 性 问题 ， 但 合并 与 移动 目录 树 采 用 的 方法 导致 一 个 数据 库 (“已 知 自 录 ” 表 ) 
必须 在 每 个 节点 被 复制 。 在 大 规模 的 网 络 中 ， 重 配置 可 以 在 每 个 层次 上 发 生 ， 而 该 表 可 能 会 增长 
到 很 大 ， 这 与 可 伸缩 性 的 目标 相 冲 突 。 


9.5 实例 研究 ，X.500 目 录 服 务 


X.500 是 9.3 节 所 定义 的 目录 服务 。 它 可 以 按 传统 的 名 字 服 务 的 使 用 方式 使 用 ,但 它 通常 用 于 满 
足 描述 性 的 查询 ， 并 用 来 发 现 其 他 用 户 或 系统 资源 的 名 字 与 属性 。 在 网 络 用 户 、 组 织 机 构 以 及 系 
统 资源 目录 下 ， 用 户 可 能 会 有 各 种 搜索 与 浏览 需求 ， 以 获取 该 目录 包含 的 实体 的 信息 。 这 种 服务 
的 使 用 有 可 能 非常 的 分 散 。 查 询 的 不 同 导致 了 目录 服务 的 不 同 使 用 方法 ， 可 以 使 用 与 查询 电话 秒 
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相似 的 方法 ， 例 如 通过 简单 的 “ 白 页 ”查询 获得 一 个 用 户 的 电子 邮件 地 址 ， 或 是 一 个 “黄页 ” 查 
询 ， 例 如 获得 一 个 专修 某 种 汽车 的 修 车 厂 的 名 字 与 电话 号 码 ， 再 如 ， 使 用 目录 访问 个 人 的 工作 职 
位 、 饮 食 习惯 甚至 照片 等 信息 。 

这 些 查询 可 以 由 用 户 发 出 ， 如 上 文中 修 车 厂 例子 所 代表 的 “黄页 ”查询 ， 或 是 从 进程 发 出 ， 
例如 在 用 于 识别 满足 某 个 功能 的 服务 时 。 

个 人 与 组 织 可 以 使 用 目录 服务 ， 在 网 络 中 使 大 量 有 关 自 己 的 信息 以 及 提供 的 资源 被 他 人 访问 。 
用 户 可 在 仅 有 部 分 名 字 、 结 构 或 内 容 的 信息 的 情况 下 ， 搜 索 目 录 寻 找 特定 信息 。 

ITU 与 ISO 标准 组 织 已 经 将 X.500 目 录 服 务 [ITU/ISO 1997] 定 义 为 一 个 满足 上 述 需求 的 网 络 服务 。 
该 标准 称 X.500 为 一 个 访问 有 关 “ 现 实 世界 实体 ”信息 的 服务 ， 它 也 可 用 于 访问 有 关 软 硬件 服务 与 
设备 的 信息 。X.500 被 定义 为 开放 系统 互 连 [OSH] 标 准 中 的 一 个 应 用 级 的 服务 ， 但 它 的 设计 在 很 大 程 
度 上 并 不 依赖 于 其 他 OSI 标准 ， 因 此 可 以 被 看 作 是 一 个 通用 的 目录 服务 。 我 们 将 在 这 里 概述 X.500 
目录 服务 的 设计 与 实现 。 对 X.500 的 详细 信息 以 及 实现 方法 感 兴趣 的 读者 可 以 参阅 Rose[Rose 1992] 
有 关 该 主题 的 书 。X.500 也 是 LDAP 的 基础 〈 将 在 下 面 讨论 ) ， 它 被 用 于 DCE 的 目录 服务 [OSF 1997]。 

在 X.500 服 务 器 中 的 数据 被 组 织 成 一 个 由 名 字 节 点 构成 的 树 状 结构 ， 如 在 本 章 中 提 到 的 其 他 名 
字 服 务 器 一 样 。 但 在 X.500 中 ， 树 的 每 个 节点 存储 了 大 量 的 属性 ， 访 问 不 仅 可 以 根据 名 称 进 行 ， 也 
可 以 根据 属性 的 组 合 搜索 条 目 。 

X.500 名 字 树 也 称 为 目录 信息 树 (Directory Information Tree, DIT)， 而 整个 目录 结构 以 及 与 节 
点 有 关 的 数据 称 为 目录 信息 库 (Directory Information Base, DIB)。 一 般 倾 向 于 将 全 世界 范围 内 的 
机 构 提供 的 信息 存储 在 一 个 集成 的 DIB 中 ， 而 DIB 的 一 部 
分 存储 在 单独 的 X.500 服 务 器 中 。 一 个 中 等 规模 或 大 规模 
的 组 织 至 少 会 提供 一 个 服务 器 。 客 户 通过 建立 一 个 到 服务 
器 的 连接 以 及 发 出 访问 请 求 来 访问 和 目录。 客户 可 以 通过 一 
个 查询 与 服务 器 联系 。 如 果 请 求 的 数据 并 不 在 连接 的 服务 
器 的 DIB 中 ， 该 服务 器 会 调用 其 他 服务 器 以 解析 查询 ， 或 
者 将 客户 重 定向 到 另 一 个 服务 器 。 

在 X.500 标 准 的 术语 中 ， 服 务 器 称 为 目录 服务 代理 
(Directory Service Agent, DSA)， 客 户 称 为 目录 用 户 代 理 图 9-10 X.500 服 务 的 体系 结构 
(Directory User Agent, DUA)， 图 9-10 给 出 了 软件 体系 结 
构 以 及 可 能 的 导航 模型 中 的 一 个 。 其 中 ， 每 个 DUA 客 户 进程 与 单个 DSA 进 程 交互 ， 而 DSA 进 程 在 
需要 的 时 候 访问 其 他 DSA 以 满足 请 求 。 

DIB 的 每 个 条 目 由 一 个 名 字 和 一 组 属性 集 组 成 。 与 其 他 名 字 服 务 器 相似 ，-- 个 条 目 完整 的 名 字 
对 应 于 DIT 的 一 个 从 树 根 到 条 目的 路 径 。 除 完整 名 或 绝对 名 外 ，DUA 可 以 建立 一 个 上 下 文 ， 其 中 包 
括 -- 个 基本 节点 ， 然 后 DUA 即 可 使 用 较 短 的 相对 名 ， 该 名 字 给 出 了 从 基本 节点 到 已 命名 条 目的 路 径 。 

图 9-11 显 示 了 包括 英国 Gormenghast 大 学 的 部 分 目录 信息 树 ， 图 9-12 是 一 个 相关 的 DIB 条 目 。 
DIB 与 DIT 中 的 条 目的 数据 结构 非常 灵活 。 一 个 DIB 条 目 包括 一 组 属性 ， 而 每 个 属性 由 一 个 类 型 和 
一 个 或 多 个 值 组 成 。 属 性 的 类 型 由 类 型 名 表示 (如 CountryName、organizationName、 
commonName、telephoneNumber、mailbox、objectClass ) 。 在 需要 的 时 候 可 以 定义 新 的 属性 类 型 。 
对 于 每 一 个 类 型 名 、 都 有 一 个 相应 的 类 型 定义 ， 该 定义 包括 一 个 类 型 描述 以 及 一 个 使 用 ASN.1 记 号 
(一 种 语法 定义 的 标准 记号 ) 表示 的 语法 定义 ， 语 法 定义 确定 了 该 类 型 的 值 域 。 

DIB 条 目的 分 类 方式 与 面向 对 象 语言 中 的 对 象 类 结构 相似 。 每 个 条 目 包括 一 个 objectClass 属 性 ， 
它 定义 了 一 个 条 目 指向 的 对 象 的 类 。Organization、 organizationPerson 以 及 document 都 是 
objectClass 的 值 的 例子 。 在 需要 的 时 候 可 以 进一步 地 定义 类 。 类 定义 确定 了 给 定 类 的 条 目 中 哪些 属 
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性 是 必需 的 ， 哪 些 是 可 选 的 。 类 的 定义 可 以 组 织 成 一 个 继承 层次 ， 其 中 ， 除 了 topClass 类 外 ， 所 有 
类 都 必须 有 objectClass 属 性 ，objectClass 属 性 的 值 必须 是 一 个 或 多 个 类 的 名 字 。 如 果 有 多 个 
objectClass 值 ， 对 象 继承 每 个 类 的 必需 的 和 可 选 的 属性 。 


X.500 Service (root) 
... France (country) Great Britain (country) Greece (country)... 


… BT Plc (organization) University of Gormenghast (organization) 


Computing Service (organizational Unit) 
Department of Computer Science (organizationalUnit) 


Engineering Department (organizational Unit)... 


..…Departmental Staff (organizational Unit) 


ely (applicationProcess) 
一 Re Students (organizational Unit)... 


.Alice Flintstone (person) ...Pat King (person) James Healey (person) Janet Papworth (person)... 


图 9-11 X.500 目 录 信 息 树 的 一 部 分 





info 
Alice Flintstone, Departmental Staff, Department of Computer Science, 





University of Gormenghast, GB 

commonName uid 

Alice.L.Flintstone alf 

Alice.Flintstone mail 

Alice.Flintstone alf@dcs.gormenghast.ac.uk 

A.Flintatone Alice.Flintstone @dcs.gormenghast.ac.uk 
Surname roomNumber 

Flintstone Z42 
telephoneNumber userClass 

+44 986 33 4604 Research Fellow 





图 9-12 一 个 X.500 DIB 条 目 


要 确定 DIB 条 目的 名 字 确定 它 在 DIT 中 位 置 的 名 字 )， 可 通过 选择 一 个 或 多 个 属性 作为 辨别 
属性 。 基 于 该 目的 而 被 选中 的 属性 被 称 为 条 目的 辨 列 名 (Distinguished Name, DN ) 。 

现在 我 们 考虑 访问 目录 的 方法 。 一 般 有 两 种 访问 请 求 ， 

读 : 给 定 某 个 条 目的 绝对 的 或 相对 名 字 (在 X.500 中 称 为 域名 ) 以 及 可 读 的 属性 列表 (或 者 需 
要 的 属性 的 指示 ) 即 可 。DSA 通 过 在 DIT 中 导航 ， 定 位 已 命名 的 条 目 ， 当 DIT 中 没有 相关 条 目 时 ， 
会 向 其 他 DSA 服 务 器 发 出 请 求 。DSA 检 索 需 要 的 属性 ， 并 将 它们 返回 给 客户 。 

搜索 :这 是 一 个 基于 属性 的 访问 请 求 。 需 提供 一 个 基本 名 以 及 一 个 过 滤 表 达 式 作为 参数 。 基 
本 名 指定 在 DIT 中 开始 搜索 的 节点 ， 过 滤 表 达 式 是 一 个 布尔 表达 式 ， 用 于 对 基本 节点 以 下 的 每 个 节 
点 进行 判定 。 过 滤 表 达 式 指定 了 一 个 搜索 准则 ， 对 条 目 属性 值 进 行 各 种 逻辑 组 合 测试 。search 命 令 
会 返回 一 组 名 字 (域名 ) ， 这 些 名 字 是 基本 节点 之 下 的 条 目 名 ， 并 且 这 些 条 目的 过 滤 表 达 式 判定 值 
为 真 。 

例如 ， 可 以 构造 一 个 过 滤 表 达 式 ， 用 于 寻找 在 Gormenghast 大 学 的 计算 机 科学 系 占 据 了 Z42 房 
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间 的 员工 的 commonName (参见 图 9-12) 。 然 后 使 用 一 个 读 请 求 获得 这 些 DIB 条 目的 任意 属性 。 

搜索 目录 树 的 大 子 树 (可 能 会 驻 留 在 多 台 服 务 器 中 ) 需要 很 大 开销 。 可 以 提供 更 多 的 参数 以 
限制 搜索 的 范围 ， 如 持续 搜索 的 时 间 以 及 返回 条 目的 数目 。 

DIB 的 管理 与 更 新 ”DSA 接口 包括 增加 、 删 除 以 及 修改 条 目的 操作 ， 查 询 与 更 新 操作 都 提供 了 
访问 控制 ， 因 此 对 部 分 DIT 的 访问 必须 限定 只 能 由 特定 用 户 或 是 一 类 用 户 来 进行 。 

一 般 来 说 ，DIB 是 分 区 的 ， 每 个 组 织 至 少 应 提供 一 个 服务 器 来 容纳 该 组 织 中 实体 的 细节 。DIB 
的 各 个 部 分 可 以 复制 到 多 个 服务 器 上 。 
| 作为 一 个 标准 (或 按 CCITT 术 语 称 为 “建议 ”)，X.500 未 涉及 实现 细节 。 然 而 ,很 清楚 的 是 ， 
任何 在 广 域 互连网 络 中 的 涉及 多 个 服务 器 的 实现 必须 广泛 地 使 用 复制 与 缓存 技术 ， 以 避免 过 多 的 
查询 重 定向 。 

Rose[1992] 描 述 了 X.500 的 一 个 实现 一 一 QUIPU[Kille 1991]， 它 是 伦敦 的 University College 开 
发 的 一 个 系统 。 华 该 实现 中 ,缓存 与 复制 的 级 别 是 单个 DIB 条 目 ， 或 是 同一 节点 下 的 条 目 集 。 系 统 
假设 在 更 新 后 值 变 得 不 一 致 ， 而 恢复 一 致 性 的 时 间 间 隔 可 能 会 有 几 分 种 。 这 种 更 新 分 发 的 形式 对 
于 目录 服务 应 用 而 言 是 可 接收 的 。 

轻 量 级 目录 访问 协议 X.500 的 标准 接口 使 用 了 涉及 ISO 协议 栈 中 上 层 的 协议 。Michigan 大 学 
的 一 个 研究 小 组 提出 了 一 个 更 轻 量 级 的 方法 ， 称 为 轻 量 级 目录 访问 协议 (Lightweight Directory 
Access Protocol, LDAP) ， 在 该 协议 中 ，DUA 直 接 通过 TCP/IP 访 问 X.500 目 录 服 务 ， 参 见 RFC 
2251[Wahl et al. 1997]。LDAP 还 用 其 他 方法 简化 了 X.500 接 口 。 例 如 ， 它 提供 了 一 个 相对 简单 的 
APL， 并 使 用 文本 编码 替代 了 ASN.1 编 码 。 

尽管 LDAP 规 范 基于 X.500， 但 LDAP 并 不 需要 它 。 任 何 实现 都 可 以 使 用 符合 更 简单 的 LDAP 规 
范 的 目录 服务 器 一 一 与 X.500 规 范 相反 。 例 如 ， 微 软 的 活动 目录 服务 提供 了 一 个 LDAP 接 日 。LDAP 
已 被 广泛 采用 ， 特 别 适用 于 企业 内 部 网 目录 服务 。 它 通过 认证 提供 了 安全 的 目录 访问 。 


9.6 小 结 


本 章 描述 了 分 布 式 系 统 中 名 字 服 务 的 设计 与 实现 。 人 下 服务 存储 了 分 布 式 系统 中 的 对 象 的 属 
性 ， 特 别 是 它们 的 地 址 ， 并 在 用 一 个 文本 名 查询 时 返回 这 些 属性 。 

名 字 服 务 的 主要 需求 是 处 理 任意 数目 名 字 的 能 力 ， 服 务 应 具有 长 期 性 、 高 可 用 性 、 故 障 隔离 
性 与 不 信任 容忍 性 。 

首要 的 设计 问题 是 名 字 空 间 的 结构 字 的 语法 规则 ， 相 关 问 题 是 解析 模型 ， 即 有 多 
个 部 分 的 名 字 被 解析 为 一 组 属性 的 规则 ， 另 外 ， 绑 定名 的 集合 必须 被 管理 。 最 后 ， 大 多 数 设计 将 
名 字 空 间 分 割 为 域 ， 即 名 字 空 间 的 离散 区 域 ， 每 个 域 具 有 一 个 独立 的 相关 权威 机 构 ， 该 机 构 控制 
域内 名 字 的 绑 定 。 

名 字 服 务 的 实现 可 以 跨越 不 同 的 组 织 机 构 与 用 户 群 。 换 句 话 说， 名 字 与 属性 绑 定 构成 的 集合 
被 存储 在 多 个 名 字 服 务 器 上 ， 每 个 服务 器 至 少 存储 一 个 名 字 域 的 部 分 名 字 集 。 因 此 ， 出 现 了 导航 
问题 ， 即 当 需 要 的 信息 存储 在 多 个 站 点 上 时 名 字 被 解析 的 方式 。 支 持 的 导航 类 型 有 迭代、 组 播 、 
递归 服务 器 控制 的 导航 ， 以 及 非 递归 服务 器 控制 的 导航 。 

另 一 个 有 关 名 字 服 务实 现 的 重要 方面 是 复制 与 缓存 的 使 用 。 两 者 均 对 提高 服务 可 用 性 以 及 降 
低 名 字 解 析 时 间 有 帮助 。 

本 章 讨论 了 两 个 主要 的 名 字 服 务 的 设计 与 实现 。 域 名 系统 被 广泛 地 用 于 因特网 上 的 计算 机 命 
名 与 电子 邮件 寻 址 ， 它 通过 复制 与 缓存 获得 理想 的 响应 时 间 。 全 局 名 字 服 务 解决 了 组 织 机 构 变化 
时 重新 配置 名 字 空 间 的 问题 。 

本 章 还 讨论 了 目录 服务 ， 当 客户 提供 基于 属性 的 描述 时 ， 该 服务 返回 与 对 象 和 服务 相 匹配 的 
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数据 。X.500 是 目录 服务 的 一 个 模型 ， 它 既 可 以 用 于 个 人 组 织 的 目录 也 可 以 用 于 全 球 目录 。 随 着 
LDAP 软 件 的 使 用 ，X.500 也 在 企业 内 部 网 中 被 广泛 使 用 。 


练习 
9.1 描述 在 分 布 式 文件 服务 (如 NFS 中 ， 见 第 8 章 ) 所 使 用 的 名 字 (包括 标识 符 ) 与 属性 。 
(第 368 页 ) 
9.2 讨论 在 名 字 服 务 中 使 用 别名 带 来 的 问题 ， 并 且 指 出 如 何 解决 这 些 问题 。 (第 373 页 ) 
9.3 解释 为 什么 在 不 同名 字 空 间 可 以 局 部 集成 的 名 字 服 务 中 (如 由 NFS 提 供 的 文件 命名 机 制 中 ) 
需要 迭代 导航 。 (第 376 页 ) 
9.4 描述 组 播 导航 中 出 现 的 名 字 未 绑 定 问题 。 通 过 安装 一 个 服务 器 ， 解 决 查询 过 程 中 名 字 的 未 绑 
定 问 题 ， 可 以 得 到 什么 结论 ? (第 377 页 ) 
9.5 缓存 如 何 提 高 名 字 服 务 的 可 用 性 ? (第 378 页 ) 
9.6 讨论 DNS 的 绝对 名 与 相对 名 在 语法 上 缺乏 差别 (如 最 后 的 “.”) 的 情况 。 (第 379 页 ) 
9.7 考察 DNS 域 与 服务 器 的 本 地 配置 。 你 可 以 寻找 一 个 在 UNIX 系 统 上 安装 的 程序 ， 如 nslookup， 
它 可 以 执行 单个 名 字 服 务 器 的 查询 。 (第 381 页 ) 
9.8 为 什么 DNS 根 服务 器 包含 两 层 名 字 (如 yahoo.com 与 purdue.du) 而 不 是 一 层 名 字 (如 edu 与 
com? ) (第 381 页 ) 
9.9 默认 情况 下 ，DNS 名 字 服 务 器 包含 哪些 名 字 服 务 器 的 地 址 ， 为 什么 ? (第 381 页 ) 
9.10 为 什么 DNS 客户 选择 递归 导航 而 不 是 挝 代 导 航 ? 和 迭代 导航 选项 会 对 名 字 服 务 器 的 并 发 性 产生 
何 种 影响 ? (第 383 页 ) 
9.11 什么 情况 下 一 个 DNS 服务 器 会 给 一 个 名 字 查 询 返 回 多 个 回答 ， 为 什么 ? (第 383 页 ) 
9.12 GNS 未 保证 命名 数据 库 中 的 所 有 条 目的 副本 是 最 新 的 ，GNS 的 客户 怎样 才能 意识 到 它们 所 持 
有 的 是 一 个 过 期 的 条 目 ? 在 哪 种 情况 下 ， 这 是 有 害 的 ? (第 387 页 ) 


9.13 讨论 用 X.500 目 录 服 务 替 代 DNS 与 因特网 邮件 传送 程序 的 好 处 与 不 足 。 为 一 个 互联 网 粗略 设 
计 一 个 邮件 传送 程序 ， 其 中 每 个 邮件 用 户 与 邮件 主机 都 注册 到 一 个 X.500 数 据 库 。 


(第 390 页 ) 
9.14 哪些 安全 问题 可 能 会 与 目录 服务 相关 ， 例 如 ， 在 一 个 大 学 里 运行 的 X.500 目 录 服 务 ? 


(第 390 页 ) 





第 10 章 对 等 系统 


对 等 系统 代表 构造 分 布 式 系统 和 应 用 的 一 种 范 型 ， 在 对 等 系统 中 ， 因 特 网 上 的 众多 主机 以 一 
种 一 致 的 服务 方式 提供 它们 的 数据 和 计算 资源 。 对 等 系统 的 出 现 源 于 因特网 的 快速 发 展 ， 现 在 它 
们 已 经 包含 了 数 百 万 台电 脑 以 及 同等 数量 的 要 求 访问 共享 资源 的 用 户 。 

对 等 系统 的 一 个 关键 问题 是 数据 对 象 在 多 主机 环境 中 的 放置 问题 ， 以 及 考虑 在 负载 平衡 的 前 
提 下 访问 数据 的 方式 ， 并 且 在 不 增加 不 必要 开销 的 情况 下 保证 系统 的 可 用 性 。 我 们 将 描述 几 个 最 
近 开 发 出 来 的 能 够 满足 上 述 要 求 的 对 等 系统 和 应 用 。 

对 等 中 间 件 系统 也 获得 了 越 来 越 广泛 的 应 用 ， 这 些 中 间 件 能 够 使 全 球 “ 处 于 因特网 边缘 ”的 
计算 机 共享 计算 资源 、 存 储 资源 和 数据 资源 。 它 们 以 一 种 新 的 方式 利用 现 有 的 命名 、 路 由 、 数 据 
复制 和 安全 技术 ， 在 一 组 不 可 靠 、 不 可 信 的 计算 机 和 网 络 上 建立 一 个 可 靠 的 资源 共享 层 。 

对 等 应 用 已 用 于 提供 文件 共享 、Web 缓 存 、 信 息 发 布 以 及 其 他 一 些 利用 因特网 上 众多 计算 机 
资源 的 服务 。 对 等 应 用 在 存储 海量 不 变数 据 方面 具有 非常 高 的 工作 效率 ， 但 是 这 样 的 设计 对 于 存 
储 和 更 新 可 变数 据 对 象 则 效率 会 有 所 降低 。 


10.1 简介 


现在 对 因特网 服务 的 需求 越 来 越 大 ， 其 规模 的 上 界 可 能 和 世界 人 口 数 相当 。 对 等 系统 的 目标 
就 是 通过 消除 对 单独 管理 的 服务 器 以 及 相应 的 基础 设施 的 需求 ， 实 现在 一 个 巨大 的 范围 内 共享 计 
算 机 数据 和 资源 。 

通过 增加 服务 器 来 扩展 服务 的 范围 收效 其 微 ， 因 为 服务 提供 者 要 为 提供 服务 而 购置 和 管理 大 
量 的 服务 器 。 管 理 这 些 服务 器 和 对 其 进行 故障 恢复 也 将 耗费 大 量 资 源 。 另 外 ， 在 可 用 物理 链 路 上 
给 一 台 服 务 器 提供 的 网 络 带 宽 也 是 一 个 主要 的 限制 。 系 统 级 的 服务 (如 Sun NFS ( 见 8.3 节 )、 
Andrew 文件 系统 ( 见 8.4 节 ) 或 视频 服务 器 ( 见 17.6 节 )) 和 应 用 层 服务 (如 Google、Amazon 或 者 
eBay) 都 不 同 程度 地 表现 出 上 述 同 题 。 

对 等 系统 由 在 利用 存在 于 因特网 以 及 其 他 不 断 发 展 的 网 络 上 的 个 人 计算 机 和 工作 站 上 的 数据 
和 计算 资源 ， 提 供 有 用 的 分 布 式 服务 和 应 用 。 随 着 桌面 计算 机 和 服务 器 之 间 的 性 能 差异 越 来 越 小 ， 
以 及 宽带 网 络 的 不 断 增长 ， 对 等 系统 越 来 越 引 起 人 们 的 关注 。 

但 是 对 等 系统 还 有 更 为 宏 远 的 目标 。 一 位 作者 [Shirky 2000] 曾 经 将 对 等 应 用 定义 为 “能 够 利用 
处 于 因特网 边缘 的 计算 机 上 的 资源 的 应 用 , 这 些 资源 包括 存储 资源 、CPU 资 源 、 内 容 资源 和 人 本 身 ”。 
上 述 的 各 种 共享 资源 在 现在 个 人 计算 机 可 用 的 分 布 式 应 用 中 都 能 够 找到 相应 的 代表 。 本 章 将 描述 一 
些 通 用 的 技术 ， 这 些 技 术 可 以 简化 对 等 系统 的 构造 ， 增 强 系 统 的 可 伸缩 性 、 可 靠 性 和 安全 性 。 

传统 的 客户 /服务 器 系统 可 以 管理 和 访问 文件 、Web 页 面 或 者 其 他 信息 对 象 ， 这 些 对 象 位 于 一 
台 服 务 器 上 或 者 一 个 紧 耦 合 的 小 计算 机 集群 上 。 采 用 集中 式 设计 ， 需 要 对 数据 资源 的 放置 以 及 对 
服务 器 硬件 资源 的 管理 做 出 决策 ， 但 是 服务 器 提供 服务 的 规模 将 会 受到 服务 器 硬件 能 力 和 网 络 连 
接 的 限制 。 对 等 系统 可 以 对 整个 网 络 上 的 计算 机 上 的 资源 进行 访问 (不论 这 个 网 络 是 因特网 还 是 
公司 内 的 局 域 网 )。 设 计 这 种 系统 的 一 个 关键 方面 是 有 关 信 息 对 象 的 放置 和 检索 的 算法 的 设计 ， 主 
要 设计 目标 是 提供 高 度 分 散 和 自治 的 服务 ， 该 服务 允许 计算 机 加 入 或 者 退出 当前 服务 时 ， 能 够 在 
参与 的 计算 机 中 动态 的 平衡 存储 和 处 理 负 载 。 
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对 等 系统 具有 以 下 特点 : 

。 系 统 设计 确保 每 个 用 户 都 能 向 系统 共享 资源 。 

。 虽然 各 个 参与 的 节点 提供 的 资源 不 同 ， 但 在 同一 个 对 等 系统 中 它们 具有 相同 的 功能 和 责任 。 

* 系统 不 需要 一 个 中 心 管理 系统 就 能 正常 运行 。 

“系统 的 设计 能 够 给 资源 的 提供 者 和 使 用 者 提供 一 定 限度 的 匿名 性 。 

* 系统 能 够 高 效 运行 的 一 个 关键 点 就 是 选择 一 个 在 大 量 主机 中 放置 数据 资源 ， 以 及 访问 这 些 资 

源 的 算法 。 这 个 算法 能 够 自动 平衡 各 个 主机 的 负载 ， 确 保 可 用 性 ， 并 且 不 会 增加 不 必要 的 系 

统 开销 。 

由 不 同 用 户 和 组 织 拥 有 和 管理 的 计算 机 和 网 络 连 接 往 往 都 是 易 变 的 资源 ， 因 为 拥有 者 们 不 能 
保证 这 些 资 源 总 是 可 访问 的 、 连 接 在 网 络 上 的 、 不 发 生 错误 的 ， 因 此 ， 参 与 到 对 等 系统 中 的 计算 
机 和 进程 的 可 用 性 是 不 可 预知 的 。 所 以 ， 对 等 服务 也 不 能 确保 对 单个 资源 访问 的 万 无 一 失 ， 虽 然 
可 以 通过 访问 相应 资源 的 一 个 副本 使 得 这 种 故障 发 生 的 概率 足够 小 。 值 得 注意 的 是 ， 如 果 利 用 资 
源 复制 能 在 一 定 程度 抵抗 对 恶意 节点 的 干扰 (例如 ， 通 过 拜占庭 容错 技术 ， 见 第 15 侠 )， 那 么 可 以 
把 一 个 脆弱 的 对 等 系统 变 成 一 个 健壮 的 系统 。 

几 个 早期 的 基于 因特网 的 服务 ， 包 括 DNS ( 见 9.2.3 节 ) 和 Netnews/Usenet[fKantor 和 Lapsley 
1986]， 都 采用 了 多 服务 器 的 可 伸缩 的 和 可 容错 的 体系 结构 。Xerox Grapevine 名 字 注 册 和 邮件 传递 
服务 [Birrell et al.1982，Schroeder et al.1984] 也 是 早期 的 一 个 令 人 感 兴趣 的 可 伸缩 并 且 具 有 容错 机 
制 的 分 布 式 服务 。 用 于 分 布 式 共 识 的 Lamport 兼职 议会 算法 (Lamport Parliament Algorithm ) ， 
Bayou 的 复制 存储 系统 ( 见 14.4.2 节 ) 和 无 类 别 域 间 IP 路 由 算法 ( 见 3.4.3 节 ) 都 是 分 布 式 算法 的 例 
子 ， 这些 算法 描述 了 信息 在 分 布 式 网 络 中 如 何 放 置 或 定位 ， 它 们 也 被 认为 是 对 等 系统 的 前 身 。 

但 是 对 于 利用 因特网 边缘 资源 的 对 等 系统 的 潜力 只 有 在 大 量 用 户 能 够 获得 宽带 网 络 连接 ， 并 
且 保 证 经 常 在 线 ， 使 他 们 的 桌面 计算 机 变 成 一 个 适合 共享 资源 的 平台 时 才能 显现 出 来 。 最 早 的 对 
等 系统 1999 年 在 美国 出 现 ， 到 2004 年 年 中 的 时 候 ， 全 世界 具有 因特网 宽带 连接 的 数量 已 经 超过 了 
一 亿 [Internet World Stats 2004] 。 

对 等 系统 和 应 用 的 发 展 到 现在 已 经 经 历 了 三 代 。 第 一 代 是 从 提供 音乐 文件 交换 共享 服务 的 
Napster 开 始 [OpenNap 2001]， 我 们 将 在 下 节 描 述 它 。 第 二 代 文 件 共 享 应 用 能 够 提供 更 大 的 伸缩 性 、 
可 以 匿名 使 用 、 具 有 容错 机 制 ， 典 型 的 软件 包括 Freenet[Clarke et al. 2000, Freenet 2004] 、Gnutella、 
Kazaa[lLeibowitz et al. 2003] 和 BitTorrent[Cohen 2003]。 

对 等 中 间 件 ”第 三 代 以 中 间 件 层 的 出 现 为 特征 ， 它 能 够 在 全 球 范 围 内 管理 与 应 用 无 关 的 分 布 
式 资 源 。 一 些 研究 团队 已 经 完成 了 对 等 中 间 件 平台 的 开发 、 评 估 和 改良 ， 并 且 把 他 们 的 研究 成 果 
部 署 到 一 系列 的 应 用 服务 中 。 已 经 有 完整 版 本 的 常用 系统 包括 Pastry[Rowstron and Druschel 2001]、 
Tapestry[Zhao et al. 2004]、 CAN[Ratnasamy et al. 2001]、 Chord[Stoica et al.2001] 和 
Kademlia[fMaymounkov and Mazieres 2002], 

这 些 平台 可 以 把 资源 (数据 对 象 、 文 件 ) 放置 到 一 组 分 布 在 因特网 中 的 计算 机 上 。 它 们 可 以 
代表 客户 进行 消息 路 由 ， 减 轻 客户 放置 资源 的 决策 负担 并 记录 要 访问 的 资源 的 行踪 。 与 第 二 代 系 
统 不 同 的 是 ， 它 们 可 以 保证 使 用 不 超过 某 个 限制 数量 的 网 络 跳 数 正确 地 传送 请 求 。 由 于 主机 并 不 
总 是 可 用 的 、 可 信 的 ， 以 及 对 负载 平衡 和 信息 存储 、 使 用 的 本 地 化 需求 ， 这 些 系统 以 结构 化 的 方 
式 把 资源 的 副本 放 到 可 用 的 主机 上 。 

资源 可 以 用 一 个 全 局 唯一 标识 符 (GUID) 来 标识 ， 这 些 标识 符 通常 是 根据 资源 的 全 部 或 者 部 
分 状态 计算 一 个 安全 散 列 码 来 获得 的 ( 见 7.4.3 节 )。 通 过 使 用 安全 散 列 码 ， 使 得 资源 本 身 能 够 进行 
“自我 验证 ”一 一 客户 接收 资源 时 可 以 验证 散 列 码 。 这 样 可 以 避免 资源 被 不 信任 的 节点 (资源 有 可 
能 存储 在 这 个 节点 上 ) 自 改 。 但 是 这 个 技术 要 求 资源 的 状态 不 能 改变 ， 否 则 一 旦 资源 的 状态 改变 ， 
它 将 会 产生 一 个 不 同 的 安全 散 列 值 。 因 此 ， 对 等 存储 系统 本 质 上 适合 不 可 变 对 象 的 存储 (例如 ， 
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音乐 或 视频 文件 )。 这 些 系 统 若 用 于 存储 可 变 对 象 ， 会 遇 到 更 大 的 挑战 ， 不 过 这 些 挑战 可 以 通过 增 
加 一 些 可 信和 服务器 来 解决 ， 这 些 服务 器 管理 可 变数 据 的 一 系列 版 本 ， 也 可 以 确定 当前 的 版 本 ( 例 
如 ，10.6.2 节 和 10.6.3 节 将 介绍 的 OceanStore 和 Ivy ) 。 

车 将 对 等 系统 应 用 于 要 求 资源 有 较 高 可 用 性 的 场合 ， 那 么 需要 进行 精心 的 设计 ， 以 免 所 有 对 
象 副本 同时 不 可 用 。 如 果 对 象 被 存储 在 一 组 相似 的 计算 机 中 (所 有 者 、 地 理 位 置 、 管 理 方式 、 网 
络 连接 、 国 家 或 者 权限 均 相 同 ) ， 那 么 具有 一 定 的 风险 。 使 用 随机 分 布 的 GUID 可 使 对 象 的 副本 随 
机 分 布 到 底层 的 网 络 节 点 中 ， 从 而 降低 这 种 风险 。 如 果 底 层 网 络 跨 越 了 全 球 的 很 多 组 织 ， 那 么 这 
种 资源 及 其 副本 同时 不 可 用 的 风险 将 会 大 大 降低 。 

覆盖 路 由 与 IP 路 由 乍 一 看 ， 覆 盖 层 上 的 路 由 和 构成 因特网 通信 机 制 基础 的 IP 数 据 包 路 由 
( 见 3.4.3 节 ) 有 很 多 相似 点 。 因 此 ， 很 自然 会 有 “为 什么 在 对 等 系统 中 还 需要 一 个 应 用 层 路 由 机 
制 ? ”的 问题 。 这 个 问题 的 答案 可 以 参考 图 10-1 中 列 出 的 几 个 不 同 点 。 有 人 可 能 会 认为 这 些 不 同 点 
来 自 于 作为 因特网 主 协 议 的 IP 协 议 的 遗留 特性 ， 但 是 遗留 特性 的 影响 太 大 ， 以 至 于 我 们 在 重新 设 
计 IP 来 更 直接 地 支持 对 等 应 用 的 过 程 中 无 法 克服 它们 。 


IP 应 用 县 路 由 覆盖 

规模 IPv4 可 寻 址 节点 最 多 为 22 个 。IPv6 的 对 等 系统 可 以 寻 址 到 更 多 的 对 象 。GUID 的 名 
名 字 空 间 是 非常 大 的 (可 达 2'”*)， 但是” 字 空 间 非 常 大 且 遍 平 (>242) ， 允 许 其 中 可 使 用 
在 两 个 版 本 中 ， 地 址 空间 都 是 按 层次 结 ”的 空间 更 大 

构 构 造 的 ， 由 于 管理 上 的 需求 ， 大 量 的 















地 址 已 经 被 预先 分 配 了 
负载 平衡 路 由 器 上 的 负载 由 网 络 拓扑 以 及 相关 对 象 的 位 置 可 以 随机 ， 因 此 流量 模型 与 网 络 拓 
的 流量 模型 确定 扑 是 不 相关 的 
网 络 动态 性 。 IP 路 由 表 是 基于 常量 时 间 (1 小 时 ) 按 路 由 表 可 以 同步 或 者 异步 更 新 ( 带 有 几 秒 的 延 
(对 象 /节点 的 ”尽力 而 为 方式 进行 异步 更 新 的 述 ) 
添加 /删除 ) 
容错 IP 网络 的 管理 者 将 元 余 引 进 到 IP 网 络 。 路 由 和 对 象 引用 可 以 复制 4 次 ， 从 而 保证 在 n 个 


中 ， 以 便当 台 路 由 器 或 网 络 连 接 发 生 。 节点 或 网 络 链接 故障 时 的 容错 能 力 
故障 时 ， 确 保 容错 度 。n 倍 复制 的 开销 很 


高 
目标 识别 每 个 IP 地 址 唯 -地 映射 到 -个 目标 节 消息 可 以 路 由 给 离 目 标 对 象 的 最 近 副 本 
点 上 
安全 性 和 二 。 只 有 当 所 有 节点 都 是 可 信 的 时 候 ， 寻 甚至 可 以 在 有 限 信任 的 环境 中 获得 安全 性 。 可 
名 性 址 才 是 安全 的 。 地 址 的 拥有 者 不 能 匿名 ”以 提供 一 定 程度 的 匿名 性 








图 10-1 正路 由 和 对 等 应 用 中 的 覆盖 路 由 的 不 同 点 


分 布 式 计 算 利用 终端 用 户 空闲 的 计算 资源 一 直 是 开发 者 颇 有 兴趣 并 付 诸 实验 的 主题 。 最 早 
的 在 Xerox PARC[Shoch and Hupp 1982] 个 人 计算 机 上 开展 的 这 项 工作 ， 说 明 在 很 多 连 入 同一 个 网 
络 的 个 人 计算 机 上 ， 通 过 运行 后 台 进 程 来 执行 松 耦 合计 算 密集 型 任务 是 可 行 的 。 最 近 ， 更 多 的 计 
算 机 用 于 进行 科学 计算 中 ， 这 些 科 学 计算 都 需要 几乎 无 限 数量 的 计算 资源 。 

在 这 类 应 用 中 最 著名 的 是 SETI@home 项 目 [Anderson et al. 2002]， 它 是 外 星 智 慧 搜索 工程 的 一 
部 分 。SETI@home 项 目 把 数字 射电 望远镜 采集 到 的 数据 流 分 割 成 107 个 工作 单元 ， 其 中 每 个 单元 的 
大 小 约 为 350KB， 然 后 把 它们 分 发 给 志愿 提供 计算 资源 的 客户 计算 机 。 每 个 工作 单元 将 元 余地 分 
发 给 3 一 4 个 计算 机 ， 以 免 某 些 节点 计算 机 发 生 错 误 或 存在 恶意 的 节点 ， 这 样 还 可 以 检查 到 重要 的 
信号 模式 。 由 一 台 服 务 器 负责 与 所 有 的 客户 通信 ， 并 且 由 该 服务 器 分 发 工作 单元 ， 并 且 最 后 协调 
各 个 客户 的 结果 。Anderson 等 [2002] 指 出 ， 到 2002 年 8 月 ， 已 经 有 大 约 391 万 台 个 人 计算 机 参与 到 
SETI@home 项 目 中 来 ， 它 们 处 理 完成 了 2.21 亿 个 工作 单元 ， 这 个 工作 量 如 果 让 具有 每 秒 27.36 万 亿 


256 旬 70 章 





次 运算 能 力 的 巨型 计算 机 来 工作 ， 它 也 需要 12 个 月 直到 2002 年 7 月 才能 完成 。 这 个 结果 在 当时 创造 
了 最 大 的 单个 计算 量 的 记录 。 

SETI 计 算是 不 同 寻 常 的 ， 当 客户 计算 机 处 理工 作 单元 的 时 候 ， 它 们 之 间 不 涉及 任何 通信 和 相 
400| 互 协调 ,而 当 客户 和 服务 器 都 可 用 时 ， 计 算 结 果 就 以 一 条 短 消息 的 方式 从 客户 上 传 到 中 心服 务 器 。 
401| 其 他 一 些 类 似 的 科学 计算 任务 ， 如 大 素数 的 搜寻 、 暴 力 破解 密码 等 ， 都 可 以 利用 类 似 的 方式 解决 。 

但 是 如 果 想 把 因特网 上 的 计算 资源 应 用 于 更 广泛 的 任务 ， 那 么 就 得 依靠 一 个 分 布 式 平台 ， 这 个 平 
台 能 够 支持 数据 共享 并 协调 大 范围 内 计算 机 间 的 相互 协调 。 这 是 网 格 系统 的 目标 ， 我 们 将 在 19 章 
讨论 网 格 。 

在 本 章 中 ,我们 只 关注 现 有 的 在 对 等 网 络 环境 中 用 于 数据 共享 的 分 布 式 系统 和 算法 。 在 10.2 节 

中 ， 我 们 将 总 结 Napster 的 设计 并 回顾 了 从 中 得 到 的 经 验 。 在 10.3 节 中 ， 我 们 将 描述 对 等 中 间 件 层 
的 基本 需求 。 在 之 后 的 几 节 中 ， 我 们 将 介绍 对 等 中 间 件 平台 的 设计 和 应 用 ， 其 中 10.4 节 会 给 出 一 个 
抽象 的 规约 ，10.5 节 对 两 个 已 经 完全 开发 好 的 例子 加 以 详细 描述 ，10.6 节 将 给 出 这 两 个 例子 的 一 些 
应 用 。 


10.2 Napster 及 其 遗留 系统 


对 等 系统 的 第 一 个 应 用 是 数字 音乐 文件 的 下 载 ， 在 这 个 应 用 中 出 现 了 在 全 球 范 围 内 存储 信息 
和 获取 信息 服务 的 需求 。Napster 文 件 共 享 系统 [OpenNap 2001] 为 用 户 提供 了 共享 文件 的 手段 ， 它 
也 第 一 次 向 人 们 展示 了 对 等 解决 方案 的 必要 性 和 可 行 性 。Napster 自 1999 年 出 现 以 后 ， 很 快 在 音乐 
文件 交换 领域 得 到 广泛 应 用 。 高 峰 的 时 候 ， 有 几 百 万 注册 用 户 ， 有 几 千 人 同时 交换 音乐 文件 。 

Napster 的 体系 结构 包括 中 心 文件 索引 ， 但 是 文件 由 用 户 提 供 ， 这 些 文件 存储 在 用 户 的 个 人 计 
算 机 上 ， 并 且 能 够 被 访问 。 图 10-2 中 的 步骤 说 明了 Napster 操 作 的 方法 。 注 意 在 第 5 步 ， 客 户 把 他 的 
计算 机 上 可 用 的 音乐 文件 以 一 个 链接 的 方式 传送 到 Napster 文 件 索 引 服务 器 上 ， 这 样 他 就 把 自己 的 
音乐 文件 添加 到 共享 资源 池 中 了 。 从 中 可 以 看 出 ，Napster 的 动机 和 成 功 的 关键 就 是 通过 因特网 向 
用 户 提供 一 个 巨大 的 、 广 泛 分 布 的 、 对 用 户 可 用 的 文件 集 ; 通过 提供 对 “处 于 因特网 边缘 上 共享 
资源 ”的 访问 ， 它 也 兑现 了 Shirky 的 宣言 


~" 里” 加 
Napster 服 务 器 gees 
We 索引 


二 扩 供 该 文件 的 闻 入、 
点 的 列表 


5. 索引 更 新 ; 
4. 文 和 传送、 
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图 10-2 Napster: 利用 一 个 集中 式 的 、 可 复制 的 索引 的 对 等 网 络 文件 共享 


由 于 Napster 在 某 些 方面 (例如 ， 数 字音 乐 ) 涉及 相应 的 版 权 问题 ， 它 的 服务 提供 者 遭 到 了 版 权 
拥有 者 的 起 诉 ， 最 终 由 于 法 律 原因 ，Napster 被 迫 关闭 (参见 下 面 的 “对 等 系统 与 版 权 归 属 问题 ”)。 






对 等 系统 与 版 权 归 属 问 题 
Napster 的 开发 者 认为 他 们 不 应 承担 侵害 所 有 者 版 权 的 责任 ， 因 为 他 们 没有 参与 拷贝 过 程 ， 
拷贝 过 程 是 在 用 户 的 机 器 之 间 完 成 的 。 但 是 最 终 他 们 败诉 了 ， 因 为 索引 服务 器 被 认为 是 拷贝 过 
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程 的 本 质 部 分 。 既 然 索引 服务 器 的 地 址 是 众所周知 的 ， 那 么 它们 的 和 运作 者 就 不 能 保持 匿名 ， 结 
果 他 们 就 成 了 法 律 诉 讼 中 的 目标 。 

一 个 更 完全 的 分 布 式 文件 共享 系统 也 许可 以 更 好 地 摆脱 法 律 责任 ， 把 法 律 责 任 分 散 给 所 有 
的 Napster 用 户 ， 这 将 使 得 法 律 索赔 变 得 异常 困难 ， 甚 至 是 不 可 能 的 。 无 论 怎样 从 共享 版 权 保 
护 角度 看 文件 拷贝 的 合法 性 ， 但 在 一 些 应 用 上 下 文中 ， 获 名 的 客户 和 服务 器 是 有 其 社会 、 政 治 
的 合法 性 理由 的 。 当 要 应 付 审查 机 构 的 审查 和 在 一 个 社区 或 组 织 中 保持 个 人 言论 自由 时 ， 匿 名 
性 就 成 为 最 好 的 手段 。 

众所周知 ， 在 社会 政治 危机 时 代 ，Email 和 Web 站 点 在 获得 公众 认 知 方面 ， 扮 演 了 重要 角 
色 ， 如果 作者 可 以 以 匿名 方式 获得 保护 ， 那 么 他 们 扮演 的 角色 还 可 以 获得 进一步 的 延伸 。 


Whistle-blowing 是 一 个 相关 的 例子 : Whistle-blower 是 一 个 雇员 ， 他 可 以 不 暴露 身份 而 向 上 级 
主管 部 门 举报 他 们 的 雇主 所 做 的 坏事 ， 从 而 不 必 害怕 雇主 们 的 制裁 或 者 被 他 们 解雇 。 在 某 些 环 
境 下 ， 通 过 匿名 性 来 保护 这 类 行为 是 合理 的 。 


如 何 使 共享 数据 以 及 其 他 资源 的 访问 者 和 提供 者 具有 匿名 性 是 对 等 系统 设计 者 关心 的 一 个 方 
面 。 在 多 节点 系统 中 ， 资 源 请 求 和 结果 返回 的 路 由 可 以 足够 曲折 ， 从 而 隐藏 它们 的 来 源 ， 文 件 的 
内 容 也 可 以 分 布 在 多 个 节点 上 ， 使 得 资源 的 可 用 性 进一步 扩大 。 抵 抗 多 数 流量 分 析 机 制 的 匿名 通 
信 机 制 已 经 存在 [Goldschlag et al. 1999]。 如 果 在 文件 存储 到 服务 器 之 前 对 它们 加 密 ， 那 么 服务 器 
的 所 有 者 看 似 可 以 拒绝 任何 内 容 。 但 是 这 些 匿名 技术 增加 了 资源 共享 的 开销 ， 并 且 景 近 的 研究 表 
明 : 在 应 付 网 络 攻击 方面 ， 匿 名 性 非常 脆弱 [Wright et al. 2002]。 

Freenet[Clarke et al. 2000] 和 FreeHaven[Dingledine et al. 2000] 项 目 都 强调 提供 因特网 文件 服 
务 ， 该 服务 能 为 文件 的 提供 者 和 用 户 提供 匿名 性 。Ross Anderson 推 荐 使 用 Eternity Service 
[Anderson 1996]， 它 是 一 项 存储 服务 ， 通 过 避免 各 种 灾难 性 的 数据 丢失 和 拒绝 服务 攻击 ， 提 供 长 
期 的 数据 可 用 性 保障 。 对 于 可 印刷 的 信息 ， 出 版 图 书 是 一 种 永久 不 变 的 模式 (事实 上 ， 一 旦 图 书 
出 版 并 且 已 经 被 分 发 到 世界 上 各 个 组 织 机 构 的 图 书馆 中 ， 我 们 将 不 可 能 对 它 进 行 删除 操作 了 ) ， 可 
是 对 于 电子 出 版 物 来 说 ， 它 不 太 可 能 像 图 书 出 版 一 样 受到 来 自 审查 机 构 的 各 种 管制 审查 。 因 此 ， 
Anderson 认 为 这 样 的 服务 是 必要 的 。 为 了 确保 存储 的 一 致 性 ，Anderson 提 出 了 技术 上 以 及 经 济 上 
的 需求 ， 并 且 还 指出 匿名 性 是 必要 的 ， 因 为 它 能 够 防备 法 律 起 诉 ， 同 样 它 还 能 避免 非法 操作 ， 如 
贿赂 或 者 攻击 数据 的 创造 者 、 拥 有 者 或 者 持 有 者 。 

从 Napster 中 得 到 的 经 验 ”Napster 展 示 了 构造 一 个 有 用 的 大 规模 服务 的 可 行 性 ， 该 服务 依靠 几 
平整 个 因特网 上 普通 用 户 的 数据 和 计算 机 。 为 了 避免 单个 用 户 (例如 ， 第 一 个 提供 chart-topping 歌 
曲 的 用 户 ) 的 计算 资源 和 网 络 连 接 的 拥塞 ， 当 给 一 个 查询 歌曲 的 客户 分 配 服 务 器 时 ，Napster 将 网 
络 地 理 位 置 也 考虑 进来 (客户 与 服务 器 之 闻 的 跳 数 )。 这 种 简单 的 负载 分 配 机 制 使 得 服务 可 以 伸缩 ， 
从 而 满足 大 量 用 户 的 需求 。 

局 限 性 : Napster 为 所 有 可 用 的 音乐 文件 建立 一 个 (可 复制 的 ) 统一 索引 。 对 这 种 应 用 来 说 ， 
并 不 强烈 要 求 保持 副本 之 间 的 一 致 性 ， 所 以 不 会 影响 服务 性 能 。 但 是 对 其 他 应 用 ， 这 种 方法 还 是 
有 局 限 性 的 。 除 非 数据 对 象 的 访问 路 径 是 分 布 的 ， 否则 对 象 的 发 现 和 定位 将 可 能 变 成 系统 的 瓶颈 。 

Napster 利 用 文件 共享 应 用 的 下 列 特征 并 针对 这 些 特征 进行 设计 : 

*。 音乐 文件 的 内 容 从 来 不 会 被 更 新 ， 避免 了 文件 在 更 新 后 与 其 副本 之 间 保 持 一 致 性 的 需求 。 

“ 不 需要 保证 单个 文件 的 可 用 性 一 一 如 果 一 个 音乐 文件 暂时 不 可 用 ， 那么 用 户 可 以 以 后 再 下 载 。 

这 就 减少 了 对 用 户 计算 机 和 网 络 连 接 的 依赖 性 。 


10.3 对 等 中 间 件 
在 设计 对 等 应 用 时 ， 一 个 关键 问题 就 是 提供 一 个 良好 的 机 制 ， 它 能 够 保证 客户 无 论处 于 因 特 
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网 的 哪个 位 置 都 能 快速 、 可 靠 地 访问 数据 资源 。 为 此 ，Napster 通 过 维护 可 用 文件 的 统一 索引 来 提 
供 文 件 所 在 的 主机 的 网 络 地 址 。 第 二 代 对 等 文件 存储 系统 (如 Gnutella 和 Freenet)， 采 用 了 分 区 和 
分 布 式 索引 算法 ， 不 过 不 同 的 系统 其 算法 各 有 不 同 。 

在 出 现 对 等 范 型 之 前 ， 在 某 些 服务 中 就 存在 定位 的 问题 。 例 如 ，Sun NFS 借 助 每 个 客户 端的 虚 
拟 文件 系统 抽象 层 来 解决 这 个 问题 ， 它 根据 虚拟 文件 引用 (例如 v 节 点 ， 见 8.3 节 ) 来 处 理 对 文件 的 
各 种 请 求 ， 这 里 被 请 求 的 文件 可 能 位 于 多 个 服务 器 上 。 这 种 解决 方案 要 在 文件 分 布 模式 或 者 服务 
器 改变 时 ， 在 客户 端 做 大 量 的 预 配置 工作 和 人 工 和 干预。 显然， 这样 的 服务 伸缩 性 差 ， 仅 局 限于 由 
单个 组 织 管理 的 服务 。AFS ( 见 8.4 节 ) 也 具有 类 似 的 特点 。 

对 等 中 间 件 系统 用 于 满足 被 对 等 系统 和 应 用 管理 的 分 布 式 对 象 的 自动 放置 及 其 定位 需求 。 

功能 性 需求 ”对 等 中 间 件 的 功能 是 简化 跨越 多 主机 的 服务 的 构建 ， 这 些 主机 可 能 位 于 大 规模 
的 分 布 式 网 络 上 。 为 了 实现 这 个 目标 ， 它 必须 能 够 使 客户 可 以 定位 单个 资源 (对 相应 的 服务 来 说 ， 
该 资源 是 可 用 的 ) 的 位 置 并 和 该 资源 通信 ， 即 使 这 些 资源 分 布 在 多 个 主机 上 。 其 他 重要 的 需求 还 
包括 : 能 够 随意 地 添加 新 资源 或 者 删除 旧 资 源 ， 能 够 添加 主机 或 删除 主机 。 与 其 他 中 间 件 一 样 ， 
对 等 中 间 件 应 该 能 够 向 应 用 程序 员 提供 一 个 简单 的 编程 接口 ， 该 编程 接 唱 不 应 依赖 于 应 用 操纵 的 
分 布 式 资源 的 类 型 。 

非 功 能 性 需求 ”为 了 使 系统 可 以 高 效 地 运行 ， 对 等 中 间 件 必须 解决 以 下 非 功能 性 需求 
[cf.Kubiatowcz 2003] ， 

全 球 可 伸缩 性 : 对 等 应 用 的 一 个 目标 就 是 利用 因特网 上 大 量 主机 的 硬件 资源 。 因 此 对 等 中 间 
件 应 该 支持 能 够 访问 存放 于 数 万 台 主 机 上 的 数 百 万 计 的 资源 。 

负载 平衡 当 所 设计 的 系统 使 用 了 大 量 计算 机 时 ， 它 的 性 能 将 依赖 于 工作 负载 的 均衡 分 布 。 
对 于 我 们 正在 考虑 的 系统 ， 可 以 通过 把 资源 放置 在 随机 的 节点 中 以 及 增加 频繁 使 用 的 热门 资源 的 
副本 数量 来 实现 负载 均衡 。 

优化 相 邻 节点 间 的 本 地 交互 : 节点 之 间 的 “网 络 距离 ”对 于 单个 交互 (如 客户 请 求 访问 资源 ) 
的 时 间 延 迟 有 很 大 的 影响 ， 而 且 对 于 网 络 流量 也 会 有 影响 。 对 等 中 间 件 应 该 能 够 将 资源 放 在 经 党 
访问 它们 的 节点 的 附近 。 

能 够 适应 动态 主机 的 可 用 性 : 大 多 数 对 等 系统 都 允许 主机 在 任何 时 候 自 由 地 加 入 或 退出 系统 。 
对 等 系统 中 的 主机 和 网 段 不 可 能 专属 于 一 个 组 织 机 构 ， 因 此 它们 的 可 靠 性 和 能 否 持续 参与 提供 服 
务 也 不 能 得 到 保证 。 构 建 对 等 系统 的 一 个 主要 挑战 是 ， 尽管 有 上 述 的 不 利 因素 ， 系 统 仍 能 够 提供 
可 靠 的 服务 。 当 主机 加 入 系统 的 时 候 ， 这 些 主机 必须 集成 到 系统 中 ， 并 且 负 载 必须 重新 分 布 ， 从 
而 利用 新 加 入 的 主机 的 资源 。 当 主机 自愿 (或 非 自 愿 地 ) 退出 系统 时 ， 系 统 必 须 能 够 检测 到 它们 
退出 ， 并 且 能 够 重新 分 配 负载 和 资源 。 

对 对 等 应 用 和 系统 (如 Gnutella 和 Overnet) 的 研究 表明 : 参与 到 系统 中 的 主机 有 时 可 用 有 时 不 
可 用 [Saroiu et al. 2002，Baghwan et al. 2003] 。 Overnet 对 等 文件 共享 系统 在 因特网 上 拥有 85 000 台 
活动 主机 。Baghwan 等 在 七 天 时 间 内 从 系统 中 随机 抽取 1468 台 主机 ， 测 得 它们 的 平均 会 话 时 间 为 
135 分 钟 (中 值 为 79 分 钟 )， 其 中 有 260 ~650 台 主机 在 任何 时 候 都 是 可 用 的 (会话 表 示 一 段 时 间 ， 
在 这 段 时 间 内 主机 是 可 用 的 ， 没 有 自愿 或 者 非 自愿 地 退出 系统 ) 。 

另 一 方面 ， 微 软 的 研究 者 们 从 连接 到 微软 公司 网 络 上 的 主机 中 随机 地 抽取 了 20 000 台 计算 机 ， 
测 得 它们 的 平均 会 话 时 间 为 37.7 小 时 ， 其 中 有 14 700 ~15 600 台 主机 在 测试 期 间 一 直 是 可 用 的 
[Castro et al. 2003] 。 上 述 测试 基于 Farsite 对 等 文件 系统 的 可 行 性 研究 [Bolosky et al. 2000]。 这 些 研 
究 所 获得 的 数字 有 巨大 的 出 入 ， 这 主要 是 因为 个 人 因特网 用 户 和 公司 网 络 用 户 (例如 ， 微 软 公司 ) 
在 行为 和 网 络 环境 方面 有 所 不 同 。 

能 够 在 具有 不 同 信任 体系 的 环境 下 保持 数据 的 安全 性 ， 在 一 个 全 球 范围 中 的 分 布 式 系统 中 ， 
参与 其 中 的 主机 有 着 不 同 的 归属 ， 信 任 体系 必须 通过 利用 授权 和 加 密 机 制 来 建立 ， 从 而 确保 信息 
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的 完整 性 和 保密 性 。 

匿名 性 、 可 否认 能 力 和 对 审查 机 构 的 抵抗 ; 我 们 注意 到 ( 见 上 面 关于 版 权 的 讨论 ) ， 给 予 数据 
的 持 有 者 和 接收 者 以 匿名 性 时 ， 在 要 求 避免 审查 机 构 审查 的 场合 会 涉及 合法 性 问题 。 因 此 ， 一 个 
相关 的 技术 需求 就 是 能 够 保证 数据 的 提供 者 或 持 有 者 能 够 合理 地 推 印 责任 。 对 等 系统 存在 大 量 主 
机 ， 这 有 助 于 获得 上 述 性 质 。 

综 上 所 述 ， 设 计 一 个 对 等 中 间 件 层 来 支持 全 球 规模 的 对 等 系统 是 一 个 难题 。 可 伸缩 性 和 可 用 
性 需求 使 得 在 系统 中 所 有 的 客户 节点 上 维持 一 个 数据 库 来 提供 所 有 感 兴趣 的 资源 (对象 ) 的 位 置 
是 不 可 行 的 。 

对 象 的 位 置信 息 必须 进行 分 区 并 且 分 PR 
布 于 整个 网 络 上 。 每 个 节点 都 负责 维护 名 
字 空 间 中 的 一 部 分 节点 位 置信 息 和 对 象 位 
置信 息 ， 还 应 该 对 整个 名 字 空 间 的 拓扑 结 
构 有 一 个 整体 上 的 了 解 (参见 图 10-3)。 在 
面 对 主 机 不 稳定 的 可 用 性 和 时 断 时 续 的 网 
络 连接 的 时 候 ， 这 些 知识 的 大 量 复制 对 确 
保 系统 的 可 靠 性 是 必要 的 。 在 下 面 我 们 将 对象 ， 0 
描述 的 系统 中 ， 其 常用 的 重复 因子 高 达 16。 节点 , 人 各 B 的 路 由 信息 。 C 的 路 由 信息 


10.4 路 由 覆盖 图 10-3 在 路 由 覆盖 中 的 信息 分 布 


开发 满足 上 述 需 求 的 对 等 中 间 件 是 一 个 非常 活跃 的 研究 主题 ， 现 在 已 经 开发 出 几 个 重要 的 中 
间 件 系统 。 在 本 章 中 ， 我 们 将 详细 描述 其 中 的 两 个 。 

路 由 履 盖 是 一 个 著名 的 分 布 式 算法 ， 它 负责 定位 主机 节点 和 对 象 。 顾 名 思 义 ， 中 间 件 层 就 是 
中 间 件 形成 一 层 ， 该 层 负责 把 来 自 客户 的 请 求 路 由 到 持 有 相应 数据 资源 的 主机 上 。 热 门 的 对 象 可 
放 到 系统 中 ， 然 后 将 它 重新 分 布 到 其 他 节点 中 ， 这 个 过 程 不 需要 任何 客户 的 参与 。 它 之 所 以 称 为 
覆盖 ， 是 因为 它 在 应 用 层 实现 了 路 由 机 制 ， 但 这 个 路 由 机 制 不 同 于 部 署 在 网 络 层 的 路 由 机 制 (如 
IP 路 由 )。 这 种 管理 和 定位 复制 对 象 的 方法 首先 在 Plaxton 等 [1997] 的 具有 突破 性 的 论文 中 被 分 析 ， 
并 证 明 在 含有 大 量 节 点 的 网 络 中 该 方法 是 高 效 的 。 

路 由 覆盖 通过 一 系列 的 节点 路 由 请 求 和 利用 每 个 节点 关于 目标 对 象 的 知识 ， 确 保 系 统 的 任意 
一 个 节点 可 以 访问 任意 一 个 对 象 。 对 等 系统 通常 会 保存 一 个 对 象 的 多 个 副本 以 确保 对 象 的 可 用 性 。 
在 这 种 情况 下 ， 路 由 覆盖 会 维护 所 有 可 用 副本 的 位 置信 息 ， 并 且 将 客户 的 请 求 发 送 到 距离 它 最 近 
的 一 个 含有 相关 对 象 的 拷贝 的 “活动 ”节点 ( 即 没 有 失效 的 节点 ) 上 去 。 

用 于 识别 节点 和 对 象 的 GUID 是 一 个 9.1.1 节 中 提 到 过 的 “纯粹 ”名 字 的 例子 。 因 为 GUID 在 引 
用 对 象 的 时 候 不 会 暴露 对 象 的 任何 位 置信 息 ， 所 以 它 也 称 为 不 透明 标识 符 。 

路 由 覆盖 的 主要 任务 如 下 所 述 : 

1) 一 个 客户 希望 调用 一 个 对 象 上 的 操作 ， 那 么 他 向 路 由 覆盖 提交 一 个 请 求 ， 请 求 中 包含 相应 
对 象 的 GUID， 路 由 覆盖 把 这 个 请 求 路 由 到 一 个 含有 该 对 象 副本 的 节点 上 。 路 由 覆盖 还 必须 能 够 完 
成 其 他 一 些 任务 : 

2) 如 果 一 个 节点 想 要 向 一 个 对 等 服务 中 添加 一 个 新 的 对 象 ， 那 么 它 可 以 通过 计算 得 到 该 对 象 
的 GUID 并 通知 路 由 覆盖 ， 路 由 覆盖 会 确保 系统 中 的 其 他 客户 能 够 访问 到 这 个 对 象 。 

3) 当 客 户 请 求 从 服务 中 移 除 对 象 时 ， 路 由 覆盖 必须 使 这 些 对 象 不 再 可 用 。 

4) 节点 〈 即 计算 机 ) 可 以 加 入 或 者 退出 服务 。 当 一 个 节点 加 入 服务 时 ， 路 由 覆盖 安排 这 个 节 
点 承担 其 他 一 些 节 点 的 责任 。 当 一 个 节点 退出 时 (可 能 是 自愿 的 ， 也 可 能 是 因为 系统 或 网 络 故障 
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造成 的 )， 它 原来 承担 的 责任 被 分 布 到 其 他 节点 上 。 

一 个 对 象 的 GUID 是 根据 该 对 象 的 全 部 或 一 部 分 状态 通过 一 个 函数 计算 出 来 的 ， 这 个 值 很 有 可 
能 是 唯一 的 。 可 以 通过 尝试 使 用 同一 GUID 来 搜索 另外 的 对 象 来 验证 唯一 性 。 通 常 ， 用 一 个 散 列 函 
数 (例如 ，SHA-! 算 法 ， 见 7.4 节 ) 来 根 
时 对象 的 值 普 生 对 象 的 GUID。 因 为 使 用 | daa 害 存储 到 根据 该 GUID 确 定 的 所 有 负责 存储 该 对 象 的 节点 上 。 
这 些 随机 产生 的 分 布 式 标识 符 来 定位 和 | ,omoverGup，) 
检索 对 象 ， 所 以 路 由 覆盖 系统 有 时 也 被 | 删除 所 有 对 该 GUID 的 引用 和 相关 联 的 数据 。 
描述 为 分 布 式 散 列表 (Distributed Hash value = SefGUND) 

Table, DHT) ， 图 10-4 中 的 简单 形式 的 从 相关 节点 中 返回 和 该 GUID 相 关联 的 数据 。 

API 就 反映 出 了 这 个 事实 。 在 这 个 API 中 ， 图 10-4 由 Pastry PAST API 实 现 的 分 布 式 散 列表 
put() 操 作 提交 一 个 数据 项 ， 该 数据 项 和 它 (DHT) 的 基本 编程 接口 

对 应 的 GUID 存 储 在 一 起 。DHT 层 负责 为 

该 数据 项 选择 一 个 位 置 ， 然 后 存储 它 (以 及 它 的 副本 ， 以 确保 可 用 性 ) ， 并 通过 get() 操 作 来 对 它 进 
行 访问 。 

图 10-5 给 出 了 分 布 式 对 象 定 位 与 路 由 (Distributed Object Location and Routing, DOLR) 层 提 
供 的 一 个 更 加 灵活 的 API。 通 过 这 个 接口 ， 对 象 可 以 存储 到 网 络 中 的 任何 位 置 ，DOLR 层 负责 维护 . 
对 象 GUID 和 包含 该 对 象 副本 的 节点 地 址 之 间 的 映射 。 对 象 可 能 有 多 个 副本 ， 并 且 同 一 个 GUID 存 
放 到 不 同 的 主机 上 ， 路 由 覆盖 负责 把 对 象 的 请 求 路 由 到 最 近 的 可 用 副本 上 。 
publisht GUID) 

GUID 可 以 根据 对 象 〈 或 它 的 某 一 部 分 ， 比 如 它 的 名 字 ) 计算 得 出 。 

这 个 函数 使 得 执行 publish 操 作 的 节点 成 为 与 该 GUID 对 应 的 对 象 的 主机 。 
unpublish{ GUID) 

使 与 GUID 对 应 的 对 象 变 成 不 可 访问 状态 。 
sendToObj({msg, GUID, [n])) 

遵从 面向 对 象 的 规则 ， 为 了 访问 一 -个 对 象 ， 发 一 个 调用 消息 给 它 。 这 个 消息 可 能 是 为 了 数据 传输 而 要 求 

打开 -… 个 TCP 连 接 的 请 求 ， 或 者 也 可 能 是 一 条 包含 对 象 全 部 或 部 分 状态 的 消息 。 最 后 一 个 可 选 的 参数 [nj 

(如 果 存 在 ) 要 求 该 消息 发 送 给 相应 对 象 的 x 个 副本 。 

图 10-5 Tapestry 实 现 的 分 布 式 对 象 定位 和 路 由 (DOLR) 的 基本 编程 接口 


在 DHT 模 型 中 ， 一 个 GUID 是 X 的 数据 项 将 被 存储 在 一 个 节点 上 ， 这 个 节点 的 GUID 数 值 最 接 
近 X， 该 数据 项 的 副本 还 将 存储 到 7 个 主机 上 , 这 些 主机 的 GUID 数 值 最 接近 X, 其 中 是 复制 因子 ， 
以 确保 具有 较 高 的 可 用 性 。 在 DOLR 模 型 中 ， 数 据 对 象 副本 的 位 置 是 在 路 由 层 外 确定 的 ， 每 个 副本 
的 主机 地 址 是 通过 publish0) 操 作 来 通知 DOLR 的 。 

图 10-4 和 图 10-5 列 出 的 编程 接口 都 是 基于 一 套 抽象 的 表示 ， 它 最 早 由 Dabek 等 [2003] 提 出 ， 这 
也 表明 到 今天 为 止 大 多 数 对 等 路 由 覆盖 实现 提供 的 功能 非常 相似 。 

路 由 种 盖 系 统 的 设计 工作 开始 于 2000 年 ， 它 一 直 是 非常 活跃 的 研究 领域 。 目 前 已 经 成 功 开发 
出 几 个 原型 并 加 以 评估 。 对 这 些 原型 的 评 佑 显示， 它们 的 性 能 和 可 靠 性 足以 使 它们 可 以 应 用 到 多 
种 生产 环境 中 。 在 下 一 节 ， 我 们 将 针对 其 中 的 两 个 原型 进行 详细 的 描述 ，Pastry 实现 了 一 个 与 图 
10-4 类 似 的 分 布 式 散 列表 API，Tapestry 实现 了 与 图 10-5 类 似 的 API。 Pastry 和 Tapestry 都 利用 了 著 
名 的 前 级 路 由 机 制 来 确定 基于 GUID 值 的 消息 的 传递 路 线 。 前 绿 路 由 在 路 由 中 选择 每 一 跳 时 ， 通过 
应 用 一 个 二 进 制 掩 码 ， 在 目标 GUID 的 十 六 进 制 形式 中 ， 选 择 具有 递增 数字 的 GUID ， 从 而 缩小 搜 
索 下 一 个 节点 的 范围 (这 个 技术 也 同样 被 应 用 于 IP 包 的 无 等 级 域 间 路 由 ， 见 3.4.3 节 )。 

此 外 ， 还 开发 了 其 他 几 种 路 由 方案 ， 它 们 利用 对 节点 之 间距 离 的 不 同 度量 来 缩小 搜索 下 - 跳 
的 范围 。Chord [Stoica et al. 2001] 根 据 被 选择 节点 和 目标 节点 的 GUID 的 不 同 做 出 选择 。CAN 


put{ GUID, data) 
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[Ratnasamy et al. 2001] 将 节点 放 入 da 维 空间 ， 并 使 用 d 维 空间 中 节点 之 间 的 距离 。Kademlia 
[Maymounkov and Mazieres 2002] 对 节点 GUID 进 行 异 或 操作 得 到 的 值 来 表示 节点 之 间 的 距离 。 因 
为 异 或 操作 具有 对 称 性 而 且 参 与 者 经 常 收 到 (包含 在 它们 路 由 表 中 的 ) 相同 节点 的 请 求 ， 所 以 
Kademlia 可 以 非常 容易 地 维护 参与 者 的 路 由 表 。 

GUID 的 可 读 性 不 佳 ， 因 此 ， 客 户 应 用 必须 通过 搜索 请 求 或 一 些 以 资源 的 可 读 名 字 为 输入 的 索 
引 服 务 来 获得 他 们 感 兴趣 资源 的 GUID。 理 想 的 情况 下 ， 这 些 索引 也 以 对 等 方式 存储 ， 以 此 来 克服 
Napster 中 的 集中 式 索 引 的 弱点 。 但 是 在 简单 情形 下 ， 例 如 音乐 文件 或 者 电子 出 版 物 的 对 等 下 载 ， 
可 以 简单 地 在 web 页 面 上 索引 (cf. BitTorrent[Cohen 2003]) 。 在 BitTorrent 中 ，Web 页 面 上 的 一 个 索 
引 对 应 一 个 存根 文件 ， 这 个 存根 文件 包含 所 需 资 源 的 详细 信息 ， 包 括 该 资源 的 GUID 和 跟踪 器 
(tracker) 的 URL。 这 里 ， 跟 踪 器 是 一 个 保存 愿意 提供 该 文件 的 计算 机 的 最 新 网 络 地 址 列表 的 主机 。 

对 上 述 的 路 由 覆盖 ， 读 者 可 能 质疑 它 的 性 能 和 可 靠 性 。 对 于 这 些 问 题 的 解答 ， 我 们 将 在 下 一 
节 遂 过 描述 一 些 实 际 的 路 由 覆盖 系统 来 给 出 。 


10.5 路 由 覆盖 实例 研究 ; Pastry 和 Tapestry 


Pastry 和 Tapestry 均 采用 前 缀 路 由 方法 。Pastry 的 设计 直接 而 高 效 ， 因 此 它 是 一 个 可 供 我 们 研究 
的 很 好 的 例子 。Pastry 是 消息 路 由 的 基础 设施 ， 它 已 经 被 部 署 到 多 个 应 用 中 ， 包 括 PAST[Druschel 
and Rowstron 2001] 和 Squirrel，Past 是 一 个 档案 文件 (不 可 变 文件 ) 存储 系统 ， 它 以 分 布 式 散 列表 
形式 实现 ， 具 有 图 10-4 所 示 的 API。Squirrel 是 一 个 对 等 Web 缓 存 服 务 ， 我 们 将 在 10.6.1 节 中 描述 它 。 

Tapestry 是 我 们 将 在 10.6.2 节 描述 的 OceanStore 存 储 系统 的 基础 。 相 对 于 Pastry 来 说 ， 它 具有 更 
复杂 的 体系 结构 ， 因 为 它 旨 在 提供 更 大 范围 内 的 定位 方法 。 我 们 将 在 10.5.2 节 中 通过 和 Pastry 比 较 ， 
对 它 加 以 详细 描述 。 

10.5.1 Pastry 


Pastry[Rowstron and Druschel 2001，Castro et al. 2002，FreePastry project 2004] 是 一 个 具有 我 
们 在 10.4 节 中 所 列 特点 的 路 由 覆盖 系统 。 能 够 通过 Pastry 访 问 的 所 有 节点 主机 和 对 象 都 被 分 配 了 一 
个 128 位 的 GUID 值 。 每 个 节点 都 有 一 个 公 钥 ， 将 一 个 安全 的 散 列 函数 (例如 SHA-]， 参 见 7.4.1 秆 ) 
应 用 到 这 个 公 钥 上 ， 通 过 计算 便 可 以 得 到 节点 对 应 的 GUID 。 而 对 于 对 象 来 说 (例如 文件 )， 我 们 
可 以 将 安全 的 散 列国 数 应 用 到 对 象 名 字 或 者 它们 的 部 分 存储 状态 上 ， 从 而 获得 它们 的 GUID 。 最 终 
的 GUID 具 有 安全 散 列 值 的 常见 特性 ， 也 就 是 说 ， 它 们 随机 分 布 到 区 间 [0，2'*~1] 上 。 这 些 值 不 会 
提供 任何 有 关 生 成 该 值 的 对 象 或 节点 的 线索 ， 同 样 不 同 的 节点 或 对 象 之 间 的 GUID 发 生 冲 突 的 可 能 
性 也 是 极 低 的 。( 如 果真 的 发 生 了 冲突 ，Pastry 也 能 检测 到 并 采取 补救 措施 。) 

在 一 个 具有 NN 个 参与 节点 的 网 络 中 ，Pastry 路 由 算法 能 够 在 O(log 入 ) 步 内 正确 地 将 消息 路 由 到 
任何 GUID 对 应 的 地 址 上 。 如 果 GUID 标 识 的 节点 当前 处 于 活跃 状态 ， 那 么 消息 将 直接 发 送 给 这 个 
布点， 否则 ， 消 息 将 发 送 给 最 接近 于 该 GUID 且 处 于 活动 状态 的 节点 。 处 于 活动 状态 的 节点 负责 处 
理发 往 它们 邻近 节点 的 请 求 。 

在 路 由 过 程 中 ， 使 用 底层 传输 层 协 议 (一 般 是 UDP) 将 消息 传输 到 一 个 最 接近 目的 地 的 Pastry 
节点 上 去 。 但 应 该 注意 ， 这 里 提 到 的 “接近 ”是 指 在 这 个 逻辑 空间 一 一 GUID 构 成 的 空间 一 一 中 接 
近 。 跨 越 因 特 网 在 两 个 Pastry 节 点 之 间 传 输 消 息 可 能 需要 若干 IP 跳 数 。 为 了 尽 可 能 降低 传输 路 径 上 
不 必要 的 风险 ，Pastry 在 为 每 个 节点 建立 路 由 表 时 ， 使 用 了 一 个 本 地 性 指标 ， 这 个 指标 基于 底层 网 
络 的 网 络 距 离 (例如 ， 跳 数 或 者 往返 的 传输 延迟 ) 来 选择 合适 的 相 邻 节点 。 

广泛 分 布 的 数 以 千 计 的 主机 均 可 以 参与 到 Pastry 的 米 盖 中 ， 它 是 完全 自治 的 。 当 新 的 节点 加 入 
到 覆盖 中 时 ， 它 们 可 以 从 覆盖 中 已 有 成 员 的 O (logM) 条 消息 中 获得 必要 的 数据 来 构建 它们 的 路 由 表 
或 者 其 他 所 需 的 状态 ， 其 中 w 表 示 参 与 到 覆盖 中 的 主机 的 数量 。 当 一 个 节点 失效 或 者 退出 时 ， 其 他 


408 
1 





262 第 10 全 





节点 能 够 检测 到 它 的 消失 ， 并 且 用 相似 数量 的 消息 共同 协作 重新 配置 ， 以 反映 路 由 结构 上 的 变动 。 

路 由 算法 ”完整 的 路 由 算法 涉及 每 个 节点 上 路 由 表 的 使 用 以 便 高 效 地 路 由 消息 ， 但 是 为 了 解 
释 算 法 ， 我 们 用 两 个 阶段 来 描述 路 由 算法 。 第 一 阶段 描述 一 个 简化 形式 的 算法 ， 它 能 够 在 不 用 路 
由 表 的 情况 下 正确 地 将 消息 路 由 到 目的 地 ， 但 是 效率 很 低 。 在 第 二 阶段 ， 我 们 将 描述 完整 的 路 由 
算法 ， 它 能 够 将 一 个 请 求 以 O(log M) 条 消息 的 代价 路 由 到 任何 节点 上 。 

第 一 阶段 : 每 个 活跃 节点 都 保存 一 个 邻接 集合 (leaf set)， 邻 接 集合 是 一 个 大 小 为 2 的 向 量 L， 
LL 包含 和 当前 节点 GUID 接 近 的 2! 个 《1 个 大 于 ，! 个 小 于 ) 其 他 节点 的 GUID 和 IP 地 址 。 当 节点 加 入 
或 者 离开 网 络 时 候 ，Pastry 负 责 维护 节点 的 邻接 集合 。 即 使 一 个 节点 出 现 故 障 ， 仍 可 以 在 很 短 的 时 
间 内 修正 相应 节点 的 邻接 集合 (故障 恢复 将 在 下 面 讨论 )。 因 此 ，Pastry 系 统 的 不 变 式 是 ， 邻 接 集 
合 反映 了 系统 的 当前 状态 ， 即 使 系统 故障 超过 某 个 FFFRF....F(2'%—1) 

最 大 故障 率 时 ， 它 们 仍 能 收敛 于 当前 系统 状态 。 -一 re、 

GUID 空 间 是 被 当 作 一 个 环 来 处 理 的 ; 比 0 小 的 DT 
GUID 邻 居 是 2 芋 - 1。 图 10-6 给 出 了 分 布 在 这 个 环形 
地 址 空间 上 的 活跃 节点 。 因 为 每 个 邻接 集合 包含 的 
是 与 当前 节点 直接 相 邻 的 节点 的 GUID 和 IP 地 址 ， 所 
以 一 个 Pastry 系 统 若 具 有 正确 的 邻接 集合 并 且 邻 接 集 
合 的 大 小 至 少 为 2， 那 么 可 按 下 述 的 方式 把 消息 发 送 
到 任意 GUID 。 本 

对 于 任意 节点 A， 当 它 收 到 一 条 目的 地 址 是 D 的 65AIFCY 
消息 M 时 ， 它 首先 将 自己 的 GUID 和 D 的 GUID 比 较 ， 国 点 代表 活路 节点 。 室 癌 可 视 为 环形 节点 0 与 节 
外 后 和 将 们 集合 中 的 GUID 和 D 的 GUID 比 较 ， 最 终 。 作 (二 ;放生 了 到 信人 人 
消息 M 将 发 往 和 D 的 GUID 最 接近 的 节点 。 图 10-6 描 D46A1C 的 过 程 ， 此 处 假设 邻接 集合 的 大 小 是 8 
述 了 这 样 的 Pastry 系 统 ， 它 的 / 值 是 4 (Pastry 的 趴 型 。 名 流 认 交代 让 的 人 性 从 
安装 中 ! 的 值 为 8) 。 基 于 邻接 集合 的 定义 ， 我 们 可 以 
总 结 出 : 在 每 步 中 ， 消 息 M 都 将 发 往 比 当前 节点 更 接 图 10.6 单独 的 环 路 由 虽然 正确 但 低 效 ( 基 
近 于 D 的 节点 ， 因 此 这 个 过 程 最 终 将 消息 M 发 送 到 距 于 Rowstron 和 Druschel [2001]) 

离 D 最 接近 的 活跃 节点 上 去 。 但 是 这 样 的 路 由 方案 的 效率 非常 低 ， 在 具有 N 个 节点 的 网 络 中 ， 发 送 
一 条 消息 需要 大 约 M2/ 跳 。 

第 二 阶段 ;在 算法 解释 的 第 二 部 分 ， 我 们 将 描述 完整 的 Pastry 算 法 ， 并 且说 明 怎 样 在 路 由 表 的 
帮助 下 进行 高 效 路 由 。 

每 个 Pastry 节 点 都 维护 一 个 树 型 结构 的 路 由 表 ， 表 中 包含 一 系列 节点 的 GUID 和 IP 地 址 ， 这 些 
GUID 的 值 可 能 是 2'” 范 围 内 任意 一 个 值 ， 其 中 当前 节点 的 邻近 节点 在 空间 上 密度 更 大 。 

图 10-7 给 出 了 某 个 节点 的 路 由 表 的 结构 ， 图 10-8 描 述 了 路 由 算法 的 过 程 。 路 由 表 是 按 下 述 方式 
构造 的 ，GUID 值 以 十 六 进 制 表 示 ， 路 由 表 依 据 GUID 的 十 六 进 制 数 的 前 织 的 不 同 对 其 进行 分 类 。 
路 由 表 的 行 数 和 GUID 的 十 六 进 制 表 示 的 位 数 相同 ， 因 此 对 于 我 们 正在 描述 的 这 个 Pastry 系 统 原型 
来 说 ， 路 由 表 有 128/4= 32 行 。 对 任意 的 行 +， 包 含 15 项 ， 每 项 对 应 于 一 个 可 能 的 第 n 个 十 六 进 制 数 
位 (不 包括 当前 节点 的 GUID 的 第 "个 十 六 进 制 数位 ) 。 表 中 的 每 项 指向 具有 相关 GUID 前 组 的 多 个 
节点 中 的 一 个 。 

对 任意 节点 A， 路 由 过 程 都 会 使 用 该 节点 的 路 由 表 R 中 信息 和 邻接 集合 L 中 的 信息 ， 并 根据 图 
10-9 中 描述 的 算法 ， 来 处 理 来 自 于 应 用 程序 的 请 求 和 来 自 于 其 他 节点 的 消息 。 我 们 可 以 确信 这 个 算 
法 总 是 能 够 成 功 地 将 信息 M 发 送 到 它 的 目的 地 ， 因 为 程序 中 第 1、2、7 行 执行 的 操作 就 是 在 上 面 第 







D46A1IC 人 
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一 阶段 中 描述 的 操作 。 我 们 已 经 说 明 ， 这 些 操作 是 一 个 完整 但 低 效 的 算法 。 图 10-9 中 的 其 他 步骤 是 


通过 使 用 路 由 表 信 息 来 减少 路 由 时 需要 的 跳 数 ， 从 而 提高 算法 的 性 能 。 





GUID prefixes and corresponding nodehandles n 











加 “ 2 63 64 B65 67 68 6 64 6B 6 OF 6E GF 


a i A 有 琵 下 用 nn 内 









653 654 655 656 657 658 659 








天 [a n 天 











人 





由 天 


65A0 (BSRY 65A2 65A3 6544 5543 5546 65A7 65A8 6549 65AA 65AB 65AC 65AD 65AE 65AF 


这 个 路 由 表 位 于 其 GUID 值 以 65A1 开 头 的 节点 上 。 数 字 都 是 十 六 进 制 的 。n 代 表 
[GUID,IP 地 址 ] 对 ， 将 与 消息 目标 地 址 对 应 的 GUID 具 有 的 相同 前 缓 的 [GUID,IP 地 址 ] 


对 作为 该 消息 的 下 一 跳 。 友 色 实 体 中 的 GUID 和 当前 GUID 匹 配 的 前 组 长 度 最 多 为 六 
应 该 检查 下 一 行 或 者 邻接 集合 来 确定 路 由 。 虽 然 在 一 个 路 由 表 中 最 多 有 128 行 ， 但 是 
在 一 个 具有 NN 个 活跃 节点 的 网 络 中 ,平均 只 有 logie NN 行 会 被 填充 。 
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图 10-7 一 个 Pastry 路 由 表 的 前 四 行 


当 D 不 处 于 当前 节点 的 邻接 集合 的 范围 内 时 
(D>L 或 者 D<L _,)， 并 且 路 由 表 中 相关 项 可 用 时 ， 程 
序 中 的 4~ 5 行 会 被 执行 。 在 当前 节点 选择 下 一 跳 时 ， 
需要 从 左 向 右 比 较 节 点 D 和 当前 节点 A 的 十 六 进 制 形式 
的 GUID ， 然 后 确定 出 p，p 表 示 D 和 A 最 长 公共 前 缀 的 
长 度 。 当 要 访问 路 由 表 中 的 元 素 时 ，p 将 作为 路 由 表 的 
行 偏 移 量 , D 与 A 第 一 个 不 同 的 十 六 进 制 位 (从 左 到 右 ) 
作为 列 偏 移 量 。 根 据 路 由 表 的 构造 方式 ， 我 们 不 难得 
出 ， 该 元 素 如 果 不 为 空 ， 那 么 它 包 含 了 一 个 节点 的 IP 
地 址 ， 该 节点 的 GUID 与 节点 D 的 GUID 有 长 为 p 二 1 的 
公共 前 组 。 

如 果 D 落 在 了 邻接 集合 之 外 (D>zZ 或 者 D<L_,) 并 
且 相 应 的 路 由 表单 元 为 空 时 ， 执 行程 序 的 第 7 行 。 出 
现 这 种 情况 的 概率 是 非常 小 的 ， 只 有 当 相 应 节点 失效 
而 路 由 表 未 来 得 及 更 新 的 时 候 ， 才 可 能 出 现 这 种 情况 。 
不 过 ， 当 这 种 情况 出 现时 ， 算 法 扫描 邻接 集合 和 路 由 
表 ， 然 后 选择 一 个 节点 作为 发 送 消息 的 下 一 跳 ， 该 节 


0 | FFFFF....F(2'*—1) 





从 节点 65A1FC 路 由 消息 给 D46A1C。 在 结 

构 良 好 的 路 由 表 的 帮助 下 ， 最 多 通过 logieN 跳 便 
可 将 一 条 消息 成 功 传送 到 目的 地 。 

图 10-8 Pastry 路 由 例子 (基于 Rowstron 和 
Druschel [2001]) 


点 的 GUID 应 该 最 接近 目标 节点 D 的 GUID, 并 且 具 有 长 度 为 p 的 公共 前 缀 。 如果 这 个 节点 包含 在 L 中 ， 
那么 我 们 可 以 按照 图 10-6 中 描述 的 第 一 阶段 的 过 程 来 操作 。 如 果 这 个 节点 包含 在 路 由 表 R 中 ， 那 么 
该 节点 的 GUID 一 定 比 L 中 的 任何 节点 的 GUID 更 接近 于 D 的 GUID， 因 此 它 是 对 第 一 阶段 改进 。 
主机 加 入 新 的 节点 加 入 时 ,使 用 了 一 种 加 入 协议 ,以便 获 得 它们 的 路 由 表 和 邻接 集合 ， 并 
且 新 节点 向 其 他 节点 通知 这 一 变化 使 它们 更 新 自己 的 路 由 表 。 首 先 ， 要 加 入 的 新 节点 计算 出 一 个 
GUID (通常 对 节点 的 公 钥 应 用 SHA-1 散 列 函 数 而 获得 ) ， 然 后 和 附近 的 一 个 Patry 节 点 建立 连接 
《这 里 我 们 使 用 的 “附近 ”这 个 词 是 指 网 络 距离 ， 即 较 少 的 网 络 跳 数 或 两 点 之 间 通 信 延 迟 很 小 。 见 


下 面 关 于 最 近邻 居 算 法 的 介绍 ) 。 
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要 处 理 日 标 节点 是 D 的 消息 M (其 中 Rip, ii 是 路 由 表 中 的 第 p 行 第 / 列 的 元 素 ) ; 


1 IC D «< 1) { /the destination is within the leaf set oris the current node. 
2 ForwardM to the elementL, of the leaf set with GUID closest to D or the current 
nodeA. 
. } else { // use the routing table to despatch AM to a node with a closer GUID 
4. 


find p, the length of the longest common prefix of DandA.andi, the (p+1)P 

hexadecimal digit of D. 

If (R[p, i #¥ map forward M to REp,i] // route M to a node with a longer common 

prefix. 

else { // there is no entry in the routing table 
Forward M to any node in L or R with a common prefix of length 1, but a 
GUID that is numerically closer. 

} 

} 





图 10-9 Pastry 的 路 由 算法 


假设 新 节点 (要 加 入 的 节点 ) 的 GUID 是 X， 并 且 它 所 联系 的 附近 节点 的 GUID 为 A。 节 点 X 发 
送 一 个 专门 的 join 请 求 消息 给 节点 A， 并 且 这 个 消息 的 目标 地 址 被 设 为 X。 节 点 A 按 正常 的 方式 通过 
Pastry 分 发 join 消 息 。Pastry 将 会 把 join 消 息 发 送 到 那些 其 GLID 值 与 X 接 近 的 已 有 节点 上 去 ， 我 们 不 
妨 把 这 些 节 点 称 为 Z。 

节点 A、Z 了 以 及 所 有 在 路 由 join 消息 路 途上 的 节点 (如 B、C…) ， 它 们 会 在 常规 Pastry 路 由 算法 
中 加 入 一 步 ， 这 将 使 它们 路 由 表 和 邻接 集合 中 的 有 关 信 息 传 递 到 节点 X， 然 后 节点 X 对 这 些 信息 进 
行 检查 ， 再 利用 这 些 信 息 构造 自己 的 路 由 表 和 邻接 集合 。 如 果 有 必要 的 话 ， 节 点 X 在 这 个 过 程 中 还 
可 以 从 其 他 节点 请 求 获 得 一 些 额外 的 信息 。 

为 了 了 解 节点 X 构 建 它 自 己 的 路 由 表 的 方式 ， 读 者 应 该 注意 到 路 由 表 的 第 一 行 依赖 于 节点 X 的 
GUID 值 ， 而 且 为 了 使 路 由 距离 尽 可 能 的 小 ， 构 造 出 来 的 路 由 表 应 该 做 到 尽 可 能 通过 邻居 节点 路 由 
消息 。A 是 X 的 一 个 邻居 节点 ， 因 此 节点 A 的 路 由 表 的 第 一 行将 是 节点 X 路 由 表 的 第 一 行 (Xo) 的 
首选 。 另 一 方面 ， 对 于 节点 X 路 由 表 的 第 二 行 (X,) 来 说 ， 节 点 A 的 路 由 表 可 能 与 X, 是 不 相关 的 了 ， 
因为 节点 X 的 GUID 和 节点 A 的 GUID 的 十 六 进 制 形式 的 第 一 位 并 不 相同 。 不 过 ， 路 由 算法 可 以 确保 
节点 X 的 GUID 和 节点 B 的 GUID 的 第 一 位 相同 ， 这 也 意味 着 节点 B 路 由 表 的 第 二 行 (B1) 对 于 X， 
(节点 X 路 由 表 的 第 二 行 ) 来 说 是 首选 。 相 似 的 ， 节 点 C 路 由 表 的 第 三 行 (C,) 对 于 节点 X 路 由 表 的 
第 三 行 (X:) 来 说 是 首选 ， 其 他 的 行 依 此 类 推 。 

此 外 ， 我 们 回想 一 下 节点 邻接 集合 的 性 质 ， 注 意 到 既然 节点 Z 的 GUID 在 数值 上 接近 节点 X 的 
GUID， 那 么 X 的 邻接 集合 应 该 和 Z 的 邻接 集合 相似 。 事 实 上 ， 理 想 情 况 下 X 的 邻接 集合 与 Z 的 邻接 
集合 只 有 一 个 成 员 不 同 。 因 此 Z 的 邻接 集合 对 于 X 来 说 是 一 个 足够 好 的 近似 ， 最 终 通过 一 系列 与 邻 
居 节 点 的 交互 ， 这 个 近似 集合 得 以 优化 。 这 将 在 下 面 的 “容错 ”部 分 加 以 介绍 。 

最 后 ， 一 旦 节点 X 按 照 上 面 所 说 的 方式 建立 起 它 的 路 由 表 和 邻接 集合 ， 它 就 可 以 将 路 由 表 和 和 邻 
接 集合 的 信息 发 送 给 路 由 表 和 邻接 集合 中 的 所 有 节点 ， 相 关节 点 接收 到 X 的 信息 ， 然 后 调整 它们 的 
路 由 表 或 邻接 集合 ， 从 而 真正 将 节点 X 并 人 当前 系统 。 在 一 个 新 的 节点 加 入 到 Pastry 系 统 的 整个 过 
程 中 需要 传送 O(log 入 ) 条 消息 。 

主机 失效 或 退出 ”处 于 Pastry 基 础 设施 中 的 节点 可 能 失效 或 者 没有 任何 预兆 地 退出 Pastry。 当 
Pastry 中 的 一 个 节点 的 (在 GUID 空 间 意 义 上 的 ) 直接 邻居 节点 不 再 与 其 通信 时 ， 便 认为 这 个 节点 
失效 了 。 这 时 ， 含 有 这 个 失效 节点 GUID 的 邻接 集合 应 该 得 到 相应 的 修正 。 

当 某 个 节点 发 现 有 节点 失效 时 ,为 了 修复 自身 的 邻接 集合 L， 它 应 该 在 L 中 寻找 靠近 失效 节点 
的 某 个 “活动 ”节点 ， 然 后 从 这 个 邻居 节点 中 获得 邻接 集合 的 一 份 拷 贝 , L' 中 包含 一 部 分 与 L 重 
又 的 GUID， 其 中 有 一 个 合适 的 代 赫 失效 节点 的 节点 。 其 他 的 相 邻 节点 也 会 收 到 有 节点 失效 的 通知 ， 
这 些 节 点 也 会 执行 类 似 的 操作 ， 以 修复 它们 的 邻接 集合 。 这 个 修复 过 程 能 够 保证 节点 的 邻接 集合 
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可 以 得 到 修复 ， 除 非 节点 的 ! 个 相 邻 节点 同时 失效 。 
对 路 由 表 的 修复 基于 “一 旦 发 现 ” 机 制 。 当 路 由 表 中 某 些 项 所 指向 的 节点 失效 的 时 候 ， 消 息 
仍 可 以 通过 同一 行 上 其 他 项 继续 路 由 工作 。 


最 近邻 居 算 法 

一 个 新 节点 要 加 入 Pastry 时 ， 它 至 少 应 该 知道 Pastry 中 已 有 的 一 个 节点 的 地 址 ， 不 过 这 个 
已 有 的 节点 与 新 节点 不 必 是 相 邻 的 。 为 了 使 新 节点 知道 邻近 节点 的 地 址 ，Patry 包 含 了 一 个 
“最 近邻 居 ” 算 法 ， 它 保存 当前 已 知 最 近 的 节点 ， 然 后 定期 地 给 包含 在 当前 最 近 节 点 的 邻接 集 
合 中 的 节点 发 送 探测 消息 ， 然 后 根据 响应 延迟 来 判断 是 否 有 比 当前 节点 更 近 的 节点 ， 通 过 这 个 
递归 的 过 程 ， 便 可 以 使 新 节点 找到 它 的 邻近 节点 。 














地 域 性 ”Pastry 路 由 结构 是 高 度 元 余 的 ， 即 在 每 对 节点 之 间 有 许多 条 路 由 。 和 构建 路 由 表 的 目的 
就 是 利用 大 量 元 余 来 减少 消息 转发 的 次 数 ， 它 利用 了 低层 传输 网 络 (通常 是 因特网 节点 的 一 个 子 
集 ) 节点 的 地 域 属 性 。 

我 们 回想 一 下 ， 路 由 表 中 的 每 一 行 包含 16 项 。 第 ; 行 包含 16 个 节点 地 址 ， 将 它们 的 GUID 与 当 
前 节点 的 GUID 相 比较 ， 它 们 前 i 一 1 个 十 六 进 制 位 与 当前 节点 是 相同 的 ， 而 第 ;个 十 六 进 制 位 分 别 取 
可 能 的 值 。 一 个 填充 良好 的 Pastry 路 由 覆盖 包含 的 节点 要 比 某 个 节点 路 由 表 中 包含 的 节点 多 得 多 。 
当 构 建 一 个 新 的 路 由 表 的 时 候 ， 都 需要 按照 最 近邻 居 选 择 算法 [Gummadi et al. 2003] 在 几 个 (从 其 
他 节点 提供 的 路 由 信息 中 获得 的 ) 候选 节点 中 做 出 选择 。 通 常 根据 节点 之 间 地 域 距离 (IP 跳 数 或 通 
信 延 迟 ) 来 比较 候选 节点 ， 最 后 选中 最 近 的 且 可 用 的 候选 节点 。 因 为 可 用 的 信息 并 不 够 全 面 ， 因此 
这 种 机 制 不 能 产生 全 局 最 优 的 路 由 。 但 是 实验 ， 显示 这 个 路 由 平均 只 比 最 优 路 由 多 用 时 30% ~ 50%。 

容错 按照 上 面 的 描述 ，Pastry 路 由 算法 假设 路 由 表 中 所 有 项 和 邻接 集合 对 应 的 节点 都 是 “ 活 
动 ” 节 点 ， 且 具有 功能 正常 。 所 有 节点 都 会 发 送 “ 心 跳 消 息 ”( 即 按 固定 时 间 间 隔 发 送 的 消息 ， 用 
来 向 其 他 节点 表明 发 送 消 息 的 节点 是 “活动 ”节点 ) 给 自己 邻接 集合 中 的 邻居 节点 。 但 是 以 这 样 
的 方式 检测 到 的 关于 某 个 节点 失效 的 信息 并 不 能 很 快 地 发 布 给 其 他 节点 ， 从 而 消除 路 由 错误 。 而 
且 ， 这 种 方式 也 不 能 避免 某 些 恶 意 节 点 试图 干扰 正确 的 路 由 。 为 了 解决 这 些 问 题 ， 依靠 可 靠 消息 
传送 的 客户 希望 使 用 具有 “至 少 一 次 ”语义 的 传送 机 制 ( 见 5.2.4 节 )， 在 没有 收 到 响应 时 ， 重 复发 
送 消 息 。 这 样 可 以 使 得 Pastry 获 得 更 长 的 时 间 窗 口 来 检测 和 修复 节点 失效 。 

为 了 处 理 其 他 的 故障 或 对 付 怀 有 恶意 的 节点 ， 可 在 图 10-9 描 述 的 路 由 选择 算法 基础 上 引入 小 
范围 的 随机 性 。 要 点 是 对 图 10-9 所 示 程 序 的 第 5 行进 行 一 下 修改 ， 随机 地 选择 一 小 部 分 实例 ， 它 们 
具有 公共 的 前 级 ， 但 是 长 度 小 于 最 大 长 度 。 这 将 导致 可 能 使 用 路 由 表 中 靠 前 的 行 来 路 由 ， 尽 管 这 
样 的 路 由 不 够 优化 ， 但 是 它 不 同 于 前 述 的 算法 的 标准 版 路 由 。 通过 在 路 由 算法 中 使 用 这 个 随机 变 
化 ， 即 使 有 少量 的 恶意 节点 存在 ， 客 户 重 传 最 终 也 可 以 获得 成 功 。 

可 靠 性 ”Pastry 的 作者 已 经 开发 出 了 一 个 更 新 的 版 本 ， 叫做 MSPastry[Castro et al. 2003]， 它 仍 
然 使 用 同样 的 路 由 算法 和 相似 的 主机 管理 方法 ， 但 是 它 包含 一 些 额外 的 保障 可 靠 性 的 措施 ， 并 对 
主机 管理 算法 的 性 能 进行 了 优化 。 

保障 可 靠 性 的 措施 包括 华 路 由 算法 中 的 每 一 跳 都 使 用 确认 。 如 果 发 送 消息 的 主机 在 指定 的 时 
间 内 没有 收 到 相应 的 确认 ， 那 么 它 将 选择 另 一 个 路 由 来 重 发 这 条 消息 。 没 有 成 功 发 送 确认 消息 的 
节点 ， 将 被 标记 为 可 疑 的 失效 节点 。 

为 了 探测 到 失效 的 节点 ， 每 个 Pastry 节 点 会 定期 发 送 心跳 消息 给 处 于 邻接 集合 中 左 部 的 〈 即 该 
节点 的 GUID 比 当前 节点 的 GUID 小 ) 直接 邻居 节点 。 每 个 节点 同时 记录 上 一 次 从 右 部 邻居 节点 
( 即 该 节点 的 GUID 比 当前 节点 的 大 ) 收 到 心跳 信息 的 时 间 。 如 果 从 上 次 收 到 心跳 消息 到 现在 的 时 
间 间 隔 超出 一 个 时 间 阔 值 ， 则 探测 节点 将 开始 路 由 表 的 修复 过 程 ， 它 会 联系 邻接 集合 中 的 其 他 节 
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点 ， 告 知 它们 基 个 节点 失效 了 ， 并 且 发 出 一 个 关于 建议 替代 节点 的 请 求 。 就 算 多 个 节点 同时 失效 ， 
当 这 个 过 程 结束 时 ， 所 有 和 失效 节点 有 关 的 节点 都 将 有 一 个 新 的 邻接 集合 ， 其 中 包含 和 当前 节点 
GUID 最 接近 的 [个 “活动 ”节点 。 

我 们 已 经 看 到 ， 路 由 算法 在 只 使 用 邻接 集合 时 仍 具 有 正确 的 功能 ， 但 是 维护 一 个 路 由 表 对 于 
提高 性 能 来 说 是 非常 重要 的 。 路 由 表 中 的 可 疑 的 失效 节点 可 以 被 探测 ， 其 方式 类 似 于 可 疑 的 失效 
节点 处 于 邻接 集合 中 的 情况 。 探 测 时 ， 如 果 可 疑 的 失效 节点 没有 响应， 那么 路 由 表 中 相关 项 包含 
的 节点 将 被 另 一 个 合适 的 节点 (从 附近 节点 中 获得 ) 替代 。 另 外 ， 可 以 使 用 一 个 简单 的 闲谈 协议 
( 见 14.4.1 节 ) 来 定期 在 节点 之 间 交 换 路 由 表 信息 ， 从 而 修复 路 由 表 失 效 的 项 ， 并 避免 地 域 特性 的 
缓慢 退化 。 闲 谈 协议 每 隔 20 分 钟 运行 一 次 。 

评估 工作 ”Castro 和 他 的 同事 对 MSPastry 进 行 了 详尽 的 性 能 评估 ， 他 们 的 目的 就 是 确定 主机 加 
入 /离开 率 以 及 相关 的 可 靠 性 机 制 对 性 能 和 可 靠 性 的 影响 [Castro et al. 2003]。 

评估 的 方法 是 : 有 一 个 模拟 器 ， 它 运行 在 一 台 计 算 机 上 ， 并 且 能 够 模拟 大 量 的 网 络 主机 ， 在 
这 个 模拟 器 控制 下 ， 再 运行 MSPastry 系 统 ， 消 息 传递 由 模拟 的 传输 延迟 替代 。 这 个 模拟 试验 实际 
上 是 根据 现实 应 用 中 的 参数 而 模拟 的 主机 加 入 /离开 行为 和 IP 传 输 延 迟 。 

MSPastry 所 有 的 可 靠 性 机 制 都 包含 于 该 模拟 中 ， 并 设置 了 实际 的 探测 与 心跳 消息 周期 。 通 过 
将 数据 与 实际 负载 (在 52 个 节点 的 内 部 网 络 上 运行 了 MSPastry) 下 的 测量 结果 比较 ， 模 拟 实验 的 
有 效 性 也 得 到 了 验证 。 

在 这 里 我 们 只 总 结 他 们 获得 的 关键 结果 。 

可 靠 性 : 如 果 IP 消 息 的 丢失 率 是 0%， 那 么 在 100 000 个 请 求 中 ，MSPastry 只 有 1.5 个 请 求 没 有 
成 功 传送 到 目标 主机 (可 能 是 因为 目标 主机 失效 了 )， 其 他 所 有 的 请 求 都 被 正确 传递 到 目标 节点 。 

如 果 IP 消 息 的 丢失 率 为 5%， 那 么 MSPastry 在 100 000 个 请 求 中 ， 大 约 有 3.3 个 请 求 被 丢失 ， 另 
外 大 约 有 1.6 个 请 求 被 传送 到 错误 的 节点 。 通 过 在 MSPastry 路 由 中 的 每 一 跳 使 用 确认 机 制 ， 可 以 保 
证 所 有 丢失 的 或 者 被 传 错 目的 地 的 消息 都 能 够 被 重 发 并 最 终 到 达 正 确 的 目标 节点 。 

性 能 : 评估 MSPastry 性 能 的 指标 被 称 做 相对 延迟 惩罚 (Relative Delay Penalty, RDP) [Chu et 
al. 2000] 或 者 扩展 度 (stretch) 。RDP 直 接 度量 发 生 在 覆盖 路 由 层 的 额外 开销 。 它 是 两 个 量 之 间 的 
比值 ， 第 一 个 量 是 通过 路 由 覆盖 在 两 个 节点 发 送 一 个 请 求 的 平均 延迟 ， 第 二 个 量 是 在 同样 两 个 节 
点 之 间 使 用 UDP/IP 发 送 同一 个 消息 的 平均 延迟 。 使 用 模拟 负载 ，MSPastry 观 测 到 的 RDP 值 在 网 络 
消息 丢失 率 为 0% 情 况 下 约 为 1.8， 在 网 络 消息 丢失 率 为 5% 情 况 下 约 为 2.2。 

开销 : 对 每 个 节点 来 说 ， 每 分 钟 内 控制 流量 ( 指 用 来 维护 节点 的 邻接 集合 和 路 由 表 的 一 系列 
消息 ) 产生 的 额外 网 络 负载 少 于 2 条 消息 。 由 于 存在 初始 安装 开销 ， 当 会 话 时 间 少 于 60 分 钟 时 ， 
RDP 和 控制 流量 都 会 显著 增长 。 

总 的 来 说 ， 在 有 数 以 千 计 节点 运行 的 真实 环境 中 ， 具 有 高 性 能 、 高 可 靠 性 的 路 由 覆盖 层 是 可 
以 被 构建 出 来 的 。 即 使 在 平均 会 话 时 间 少 于 60 分 钟 和 网 络 错误 率 很 高 的 情况 下 ， 系 统 也 只 是 有 适 
度 的 退化 ， 仍 能 够 提供 高 效 的 服务 。 


10.5.2 Tapestry 


Tapestry 实 现 了 一 个 分 布 式 散 列表 ， 并 基于 和 资源 相关 的 GUID， 使 用 和 Pastry 类 似 的 前 缀 路 
由 方式 将 消息 路 由 给 节点 。 但 是 从 应 用 层面 上 看 ，Tapestry 的 API 把 分 布 式 散 列表 隐藏 在 了 类 似 图 
10-5 所 示 的 DOLR 接 口 后 面 。 持 有 资源 的 节点 使 用 publish(GUID) 原 语 来 告知 Tapestry 它 们 的 存在 ， 
然后 持 有 资源 的 节点 仍 负责 存储 这 些 资源 。 含 有 相同 资源 副本 的 节点 使 用 相同 的 GUID 来 发 布 该 资 
源 ， 这 使 得 Tapestry 的 路 由 结构 中 有 多 个 路 由 项 。 

这 给 予 了 Tapestry 应 用 一 些 额 外 的 灵活 性 : 它们 可 以 把 资源 副本 放 到 经 常 使 用 该 资源 的 用 户 附 
近 【〈 按 网 络 距离 )， 从 而 降低 延迟 并 最 小 化 网 络 负载 ， 还 能 够 确保 对 网 络 和 主机 故障 的 容错 。 但 是 ， 
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这 并 不 是 Pastry 和 Tapestry 最 本 质 的 区 别 : 让 与 GUID 对 应 的 对 象 作为 更 复杂 的 应 用 级 对 象 的 代理 ， 
Pastry 应 用 也 能 够 获得 类 似 的 灵活 性 ，Tapestry 也 可 以 按 DOLR API[Dabek et al. 2003] 来 实现 一 个 分 
布 式 散 列 表 。 

在 Tapestry 中 ， 使 用 160 位 的 标识 符 来 引用 对 象 和 执行 路 由 操作 的 节点 。 标 识 符 要 么 是 标识 实 
施 路 由 操作 的 计算 机 的 NodeIld， 要 么 是 标识 对 象 的 GUID 。 对 于 任何 GUID 为 G 的 资源 来 说 ， 它 们 都 
具有 了 唯一 的 根 节 点 ， 并 且 这 个 根 节点 Re 具有 的 GUID 是 最 接近 于 G 的 。 持 有 资源 G 副 本 的 主机 H 定 期 
调用 publish(G) ， 以 确保 新 加 入 的 主机 能 够 获知 G 的 存在 。 在 每 次 调用 publish(G) 时 ， 一 个 发 布 消 
息 都 会 从 调用 者 节点 路 由 到 节点 Reo。 一 旦 节点 Ro 收 到 该 发 布 消息 ， 它 就 为 它 的 路 由 表 添 加 一 项 
(G，IPn)， 该 项 代表 G 和 发 送 发 布 消息 主机 的 IP 地 址 之 间 的 映射 。 路 由 该 发 布 消息 时 ， 所 经 过 的 每 
个 节点 都 会 缓存 这 个 映射 。 我 们 在 图 10-10 中 说 明了 这 个 过 程 。 当 节点 存储 了 GUID 为 G 的 多 个 映射 
(G,，IP) 时 ， 它 会 按照 当前 节点 到 这 些 IP 地 址 的 网 络 距离 (往返 时 间 ) 来 对 这 些 映射 排序 。 随 后 
发 往 该 对 象 的 消息 ， 会 在 所 有 可 用 的 对 象 副 本 中 选择 一 个 最 近 的 作为 消息 的 目标 地 址 。 
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文件 Phil's Book (G=4378) 的 副本 存储 在 节点 4228 和 节点 AA93 中 。 对 于 
对 象 4378， 节 点 4337 是 其 根 节 点 。 显 示 的 Tapestry 路 由 是 路 由 表 中 的 一 部 分 路 由 
项 。 发 布 路 径 给 出 了 发 布 消息 后 形成 的 路 由 ， 在 这 个 路 径 上 留 下 了 对 象 4378 的 
位 置 映射 缓存 。 位 置 映射 接 下 来 会 用 于 路 由 发 送 给 4378 的 消息 。 


图 10-10 Tapestry 的 路 由 (来 自 [Zhao et al. 2004]) 


Zhao 等 [2004] 详 细 地 描述 了 Tapestry 路 由 算法 ， 也 给 出 了 在 遇 到 节点 加 入 和 退出 的 时 候 
Tapestry 路 由 表 的 管理 。 他 们 的 论文 还 包括 了 详尽 的 性 能 评估 数据 ， 这 些 数据 是 基于 对 大 规模 
Tapestry 网 络 的 模拟 而 得 出 的 ， 这 些 数据 表明 Tapestry 具 有 和 Pastry 相 似 的 性 能 。10.6.2 节 描述 的 
OceanStore 文 件 存储 就 是 在 Tapestry 上 构造 和 部 署 的 。 


10.6 应 用 实例 研究 : Squirrel、OceanStore 和 lvy 


大 规模 对 等 系统 现在 还 不 是 主流 的 技术 。 它 们 被 广泛 部 署 在 为 终端 用 户 提 供 文 件 下 载 的 应 用 
中 ， 这 样 的 系统 包括 Napster、Freenet、Gnutella、Kazaa 和 BitTorrent。 但 是 这 些 系统 都 没有 单独 的 
路 由 覆盖 层 ， 因 此 这 些 系统 的 性 能 评估 结果 很 难 用 于 推断 其 他 的 系统 。 

在 前 面 描述 的 路 由 覆盖 层 已 经 被 用 到 几 个 应 用 试验 中 ， 所 形成 的 几 个 应 用 已 经 被 广泛 地 评估 。 
我 们 从 其 中 选择 三 个 做 进一步 的 研究 ， 这 三 个 系统 是 基于 Pastry 的 Squirrel Web 缓存 服务 、 
OceanStore 和 Ivy 文 件 存 储 系统 。 


10.6.1 Squirrel Web 缓存 


Pastry 的 作者 已 经 开发 出 了 用 于 个 人 计算 机 组 成 的 局 域 网 的 对 等 Squirrel Web 缓 存 服务 [Iyer et 
al. 2002]。 在 中 等 规模 和 大 型 的 局 域 网 中 ，Web 缓 存 服务 通常 由 一 台 专 门 的 服务 器 或 者 一 个 集群 来 
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提供 。Squirrel 系 统 利 用 局 域 网 中 桌面 计算 机 的 存储 和 计算 资源 也 能 够 完成 同样 的 任务 。 我 们 首先 
概述 一 个 Web 缓 存 服务 的 运作 原理 ， 然 后 介绍 Squirrel 的 设计 ， 并 回顾 一 下 它 的 效率 。 

Web 缓 存 ”Web 浏览 器 为 因特网 对 象 (HTML 页 面 、 图 像 等 ) 产生 HTTP GET 请 求 。 该 请 求 获 
得 服务 的 方式 可 能 有 多 种 : 首先 ， 客 户 端的 浏览 器 缓存 可 以 为 该 请 求 提供 服务 ， 再 者 ， 一 个 代理 
Web 缓 看 一 它 是 一 个 服务 ， 运 行 在 同一 个 局 域 网 内 的 另 一 台 计 算 机 上 或 者 在 因特网 上 一 个 邻近 











的 节点 上 一 一 可 以 为 该 请 求 提供 服务 ， 再 者 ， 源 Web 服 务 器 一 一 这 个 服务 器 的 域名 包含 在 HTTP 
GET 请 求 的 参数 中 一 一 可 以 为 该 请 求 提 供 服 务 。 最 终 选 择 哪 一 种 方式 来 提供 服务 ， 取 决 于 哪 种 方 


式 能 够 提供 该 对 象 的 最 新 拷贝 。 每 个 本 地 缓存 和 代理 缓存 都 包含 一 个 最 近 检 索 的 对 象 集合 ， 这 个 
集合 按 URL 进 行 组 织 以 提供 快速 的 查询 。 另 外 ， 有 些 对 象 是 不 可 缓存 的 ， 因 为 它们 是 由 服务 器 根 
据 请 求 动态 产生 的 对 象 。 

当 浏 览 器 缓存 或 代理 Web 缓 存 收 到 一 个 GET 请 求 时 ， 会 有 三 种 可 能 :被 请 求 的 对 象 是 不 可 缓 
存 的 ， 被 请 求 的 对 象 不 在 缓存 中 ， 被 请 求 的 对 象 在 缓存 中 。 当 出 现 前 两 种 情况 时 ，GET 请 求 会 被 
转发 给 源 Web 服 务 器 。 当 在 缓存 中 找到 了 被 请 求 的 对 象 时 ， 还 必须 检测 该 对 象 是 否 是 最 新 的 。 

存储 在 Web 服 务 器 和 缓存 服务 器 中 的 对 象 带 有 一 些 额外 的 元 数据 项 ， 其 中 包括 一 个 时 间 蕉 ， 
这 个 时 间 惟 给 出 该 对 象 最 后 被 修改 的 日 期 7。 元 数据 项 中 可 能 还 包含 该 对 象 的 生存 时 间 ! 或 者 一 个 
eTag 〈 从 Web 页 面 的 内 容 计算 出 的 一 个 散 列 值 ) 。 当 一 个 对 象 返回 给 客户 时 ， 源 服务 器 都 会 提供 这 
些 元 数据 项 。 

对 于 那些 在 元 数据 项 中 包含 生存 时 间 : 的 对 象 ， 只 有 当 T+! 表 示 的 时 间 晚 于 当前 时 间 时 ， 该 对 象 
才 被 认为 是 最 新 的 。 对 于 那些 在 元 数据 项 中 不 包含 生存 时 间 的 对 象 ， 要 检测 该 对 象 是 否 最 新 ， 将 
使 用 一 个 :的 估计 值 (通常 这 个 估计 值 是 几 秒 )。 如 果 检 测 结 果 是 最 新 的 ， 那 么 被 缓存 的 对 象 会 直接 
返回 给 客户 ， 而 不 用 再 联系 提供 该 对 象 的 源 服务 器 。 如 果 结果 不 是 最 新 的 ， 那 么 会 提交 一 个 带 条 
件 的 GET 请 求 cGET 给 下 一 级 进行 验证 。 有 两 种 基本 的 cGET 请 求 ; If-Modified-Since 请 求 ( 它 包含 
已 知 的 最 后 一 次 被 修改 的 时 间 惟 ) 和 If-None-Match 请 求 ( 它 包 含 一 个 代表 对 象 内 容 的 eTag ) 。 这 些 
cGET 请 求 可 能 由 另外 一 个 web 缓存 来 提供 服务 ， 也 可 能 由 源 服 务 器 提供 服务 。 收 到 cGET 请 求 的 
Web 缓 存 如 果 没 有 相应 对 象 的 最 新 拷贝 ， 它 就 将 该 请 求 转发 给 源 Web 服 务 器 。 对 GET 请 求 的 应 答 要 
么 包含 整个 对 象 ， 要 么 是 一 条 not-modified 消 息 (表示 缓存 的 对 象 还 没有 被 改变 过 )。 

当 从 源 服务 器 接收 到 一 个 刚刚 被 修改 的 可 以 缓存 的 对 象 时 ， 该 对 象 都 会 被 加 入 本 地 缓存 的 对 
象 集合 中 〈 如 果 有 必要 ， 可 以 替换 原来 的 仍然 有 效 的 老 对象 ) ， 同 时 如 果 存 在 该 对 象 的 时 间 咒 、 生 
存 时 间 : 和 e7ag ， 那 么 它们 也 会 被 同时 保持 。 

集中 式 代 理 Web 缓 存 服务 已 经 被 部 署 到 大 多 数 支持 大 量 Web 客 户 的 局 域 网 中 ， 这 种 代理 服务 的 
运行 基础 就 是 我 们 在 上面 描 述 的 策略 。 代 理 Web 缓 存 典 型 的 实现 是 运行 于 一 台 专 门 主机 上 的 多 线 
程 进程 ， 或 者 是 运行 于 计算 机 集群 上 的 进程 集合 。 它 们 都 需要 大 量 专用 的 计算 资源 。 

Squirrel Squirrel Web 缓 存 服务 可 以 完成 同样 的 功能 ， 而 它 只 需要 使 用 网 络 中 每 台 客 户 计算 
机 的 一 小 部 分 资源 。 对 每 个 缓存 对 象 的 URL 应 用 SHA-1 安 全 散 列 函 数 ， 可 以 产生 一 个 128 位 的 
Pastry GUID 。 像 其 他 Pastry 应 用 一 样 ， 既 然 GUID 不 是 用 来 验证 对 象 内 容 的 ， 因 此 产生 GUID 不 必 
依赖 于 整个 对 象 的 内 容 。Squirrel 的 作者 依据 端 到 端 观点 ( 见 2.2.1 节 ) 给 出 自己 的 判断 ， 他 认为 ; 
一 个 Web 页 面 从 服务 器 传送 到 客户 要 经 过 很 多 中 间 节 点 ， 而 在 每 个 节点 上 页 面 的 可 靠 性 都 可 能 遭 
到 破坏 ， 增 加 对 缓存 页 面 的 认证 对 于 全 面 的 可 靠 性 保证 也 只 是 杯水车薪 。 对 于 那些 需要 可 靠 性 的 
交互 ， 应 该 使 用 HTTPS 协 议 (具有 端 到 端 传输 层 安 全 性 ， 见 7.6.3 节 ) 来 获得 更 好 的 可 靠 性 保证 。 

在 Squirrel 最 简单 的 实现 中 〈 它 已 经 被 证 明 效 率 是 最 高 的 ) ， 如 果 一 个 节点 的 GUID 和 对 象 的 
GUID 是 最 接近 的 ， 那 么 该 节点 就 作为 这 个 对 象 的 主 (home) 节点 ， 负 责 缓存 和 持 有 所 有 该 对 象 的 
拷贝 。 


每 个 客户 节点 都 包含 一 个 本 地 Squirrel 代 理 进程 ， 该 进程 负责 缓存 所 有 本 地 和 远程 的 Web 对 象 。 
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如 果 在 本 地 缓存 中 没有 发 现 被 请 求 对象 的 一 个 最 新 拷贝 ，Squirre1 就 会 通过 Pastry 将 一 个 GET 请 求 或 
者 cGet 请 求 ( 当 本 地 缓存 包含 被 请 求 对 象 的 过 时 版 本 时 ) 路 由 到 该 对 象 的 主 节 点 。 如 果 主 节点 有 
该 对 象 的 最 新 拷贝 ， 它 就 直接 给 客户 返回 最 新 拷贝 或 者 一 条 notrmodified 消 息 。 如 果 主 节点 包含 被 
请 求 对 象 的 过 时 版 本 或 者 根本 没有 该 对 象 的 任何 拷贝 ， 那 么 它 就 分 别 发 送 cGet 或 Get 请 求 给 该 对 象 
的 源 服务 器 。 源 服务 器 的 响应 可 能 是 一 条 not-modified 消 息 ， 也 可 能 是 被 请 求 对 象 的 拷贝 。 在 前 一 
种 情况 下 ， 主 节点 重新 验证 它 的 缓存 项 ， 并 且 向 客户 返回 该 对 象 的 一 个 拷贝 ， 在 后 一 种 情况 下 ， 
它 将 新 对 象 的 拷贝 转发 给 客户 ， 并 且 如 果 该 对 象 是 可 缓存 的 ， 它 还 在 自己 的 本 地 缓存 中 保存 该 对 
象 的 一 个 拷贝 。 

对 Squirrel 的 评估 ”Squirrel 也 是 通过 模拟 的 方式 来 评估 的 ， 使 用 的 是 根据 对 微软 内 部 和 其 他 
真实 环境 中 已 有 的 集中 式 代 理 Web 缓 存 的 活动 进行 跟踪 而 获得 的 模型 化 负载 。 这 里 ， 微 软 的 环境 
中 有 位 于 英国 剑桥 的 105 个 活动 客户 ， 另 外 一 个 环境 在 美国 华盛顿 州 的 雷 蒙 德 ， 包 含 超过 36 000 个 
活动 客户 。 评 估 工 作 从 三 个 方面 比较 了 Squirrel Web 缓 存 与 传统 集中 式 Web 缓 存 的 性 能 差别 ， 

能 够 节省 总 的 外 部 带宽 ， 外 部 带宽 的 总 使 用 量 跟 缓 存 命中 率 有 关 ， 只 有 当 缓存 中 的 对 象 不 能 
命中 时 ， 才 会 发 送 请 求 给 外 部 服务 器 。 对 于 集中 式 Web 缓 存 ， 观 测 到 的 缓存 命中 率 是 29% ( 雷 蒙 
德 ) 和 38% (剑桥 )。 使 用 同一 个 活动 日 志 ， 为 Squirrel 缓 存 产生 一 个 相似 的 模拟 负载 ， 其 中 每 个 客 
户 贡 献 100MB 的 磁盘 存储 ， 这 样 观测 到 的 命中 率 和 集中 式 Web 缓 存 非常 相似 ,分别 是 28% ( 雷 蒙 
德 ) 和 37% (剑桥 )。 由 此 可 得 出 结论 : 两 者 节省 外 部 带宽 的 比例 相似 。 

用 户 访问 Web 对 象 时 感觉 到 的 延迟 : 当 一 个 客户 发 送 请 求 给 负责 缓存 相应 对 象 的 主机 ( 主 节点 ) 
时 ， 如 果 使 用 路 由 覆盖 ， 那 么 在 局 域 网 中 将 会 有 好 几 条 消息 被 发 送 (路 由 跳 数 ) 。 在 雷 蒙 德 的 模拟 
环境 中 ， 传 送 一 个 GET 请 求 的 路 由 跳 数 的 平均 值 是 4.11。 在 剑桥 的 模拟 环境 中 ， 传 送 一 个 请 求 的 路 
由 跳 数 的 平均 值 是 1.8。 然 而 对 于 访问 集中 式 Web 缓 存 服务 来 说 ， 需 要 且 仅 需要 传递 一 条 消息 。 

虽然 跨越 因特网 传送 一 条 TCP 消 息 大 概 需 要 10 ~ 100ms， 但 是 在 现代 以 太 网 硬件 的 支持 下 ， 在 
局 域 网 中 传输 一 条 消息 只 需 几 毫秒 ， 这 其 中 还 包含 了 TCP 连 接 建 立 的 时 间 。 因 此 ，Squirrel 的 作者 
们 认为 : 一 个 要 访问 的 对 象 在 缓存 中 被 找到 所 需要 的 延迟 远 远 小 于 缓存 中 没有 满足 请 求 的 对 象 时 
所 需要 的 延迟 。 所 以 ， 相 对 于 传统 的 集中 式 Web 缓 存 ，Squirrel 缓 存 也 能 给 用 户 以 相似 的 体验 。 

用 户 节点 需要 承担 的 计算 和 存储 负载 ;在 整个 评估 过 程 里 ， 每 个 节点 为 其 他 节点 提供 的 缓存 
请 求 服务 次 数 是 极 低 的 ， 仅 为 每 分 钟 0.31 次 (在 雷 蒙 德 的 模拟 环境 中 )， 这 说 明 消 耗 系统 资源 的 整 
体 比例 是 极 低 的 。 

基于 上 面 描述 的 测量 结果 ，Squirrel 的 作者 们 得 出 结论 :Squirrel 的 性 能 与 集中 式 缓存 的 性 能 相 
似 。 当 集中 式 缓存 服务 器 配备 相似 大 小 的 专用 缓存 时 ， 对 于 Web 页 面 的 访问 ，Squirrel 的 延迟 比 集 
中 式 Web 缓 存 小 一 些 。Squirrel 给 客户 节点 增加 的 额外 负载 很 少 ， 少 到 用 户 可 能 感觉 不 到 。 随 后 ， 
Squirrel 被 部 署 到 一 个 具有 52 台 客户 机 器 的 局 域 网 中 ， 作 为 主 Web 缓 存 提供 服务 ， 最 终 的 结果 证 明 
了 他 们 的 结论 是 正确 的 。 


10.6.2 OceanStore 文 件 存储 

Tapestry 的 开发 者 已 经 为 对 等 文件 存储 设计 并 建立 了 一 个 原型 ， 与 Pastry 不 同 ， 它 能 够 支持 可 
变 文 件 的 存储 。OceanStore [Kubiatowicz et al. 2000，Kubiatowicz 2003 ，Rhea et al. 2001， 了 hea et 
al. 2003] 的 设计 目标 是 提供 一 个 大 范围 的 、 可 增 量 伸缩 的 持久 存储 工具 ， 以 便 存储 可 变数 据 对 象 ， 
在 网 络 和 计算 资源 经 常 变 化 的 环境 中 ， 仍 提供 对 象 存储 的 长 期 持久 性 和 可 靠 性 。OceanStore 计 划 用 
于 多 种 应 用 中 ， 包 括 类 似 NFS 文 件 服务 的 实现 、 电 子 邮 件 服务 、 数 据 库 以 及 其 他 涉及 大 量 数据 对 象 
共享 和 持久 存储 的 应 用 。 

OceanStore 的 设计 还 包括 提供 不 变数 据 和 可 变数 据 的 复制 存储 功能 。 受 Bayou 系 统 ( 见 14.4.2 
节 ) 中 保持 对 象 与 其 副本 之 间 的 一 致 性 的 机 制 的 启发 ， 把 它 适 当 的 裁剪， 就 可 以 满足 应 用 的 需要 。 
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通过 对 数据 进行 加 密 和 使 用 拜占庭 式 协定 ( 见 11.5.3 节 和 11.5.4 节 ) 来 更 新 复制 对 象 ， 就 可 以 保证 
数据 的 私密 性 和 完整 性 。 这 样 做 是 有 必要 的 ， 因 为 我 们 不 能 对 单个 主机 的 可 信任 度 做 任何 的 假定 。 

目前 ， 已 经 构建 了 一 个 OceanStore 的 原型 Pond[Rhea et al. 2003]。 它 足以 支持 应 用 ， 并 且 为 了 验 
证 OceanStore 设 计 的 正确 性 和 比较 OceanStore 在 性 能 上 与 传统 方法 的 区 别 ， 对 它 的 性 能 用 各 种 基准 
测试 进行 了 评估 。 在 本 节 后 面 的 部 分 ， 我 们 将 概述 OceanStore/Pond 的 设计 ， 并 总 结 它 的 评估 结果 。 

Pond 使 用 Tapestry 路 由 覆盖 机 制 把 数据 块 放置 在 节点 上 ， 这 些 节 点 可 能 遍布 整个 因特网 ， 然 后 
Pond 再 把 请 求 分 发 给 它们 。 

存储 的 组 织 ”OceanStore/Pond 的 数据 存储 在 一 组 块 中 ， 因 此 可 以 把 它们 比喻 为 文件 。 但 是 每 
个 对 象 都 被 表示 为 若干 不 变 的 有 序 序 列 ， 并 且 原 则 上 这 些 版 本 都 是 永久 存储 的 。 对 对 象 的 任何 一 
个 更 新 ， 都 将 导致 该 对 象 生成 一 个 新 版 本 。 这 些 版 本 可 以 依据 在 6.4.2 节 描述 的 用 于 创建 和 更 新 对 
象 的 写 时 更 新 技术 共享 不 变 块 。 因 此 ， 如 果 某 些 版 本 之 间 只 有 很 少 的 不 同 点 ， 那 么 存储 这 些 版 本 
需要 的 额外 空间 也 是 很 少 的 。 

对 象 是 按 类 似 Unix 文 件 系 统 的 方式 来 构造 的 ， 它 们 的 数据 块 的 组 织 和 访问 都 要 通过 一 个 元 数 
据 块 ， 也 叫 根 块 ， 并 且 如 果 有 必要 还 需要 额外 的 间接 数据 块 (cf. Unix inodes)。 另 外 一 个 级 别 的 间 
接 块 被 用 于 将 对 象 一 系列 版 本 和 一 个 持久 的 文本 名 字 或 者 其 他 外 部 可 见 的 名 字 (例如 一 个 文件 的 
路 径 名 ) 关联 起 来 。 图 10-11 阅 明了 对 象 的 组 织 方式 。GUID 可 以 关联 到 数据 对 象 (这 样 的 GUID 也 
称 作 AGUID ) 、 数 据 对 象 不 同 版 本 的 根 块 (这 样 的 GUID 也 称 作 VGUID ) ， 间 接 块 和 数据 块 (这 样 
的 GUID 也 称 作 BGUID ) 。 若 某 个 块 有 多 个 副本 ， 它 们 将 被 存储 到 对 等 节点 中 ， 这 些 节点 是 根据 本 
地 性 和 存储 可 用 性 原则 进行 选择 的 ， 并 且 这 些 块 的 GUID 会 被 每 个 包含 这 些 副本 的 节点 发 布 出 来 


(使 用 图 10-5 中 publish() 原 语 ) ， 客 户 可 以 使 用 Tapestry 来 访问 这 些 块 。 


AGUID | 
证 书 当前 版 本 的 VGUID 





时 复制 ) 


版 本 i+1 | 版 本 i 的 
VGUID 癌 
A 
与 
名 
版 本 i 
» 
版 本 i- 的 
VGUID 


注 : 版 本 i+l 更 新 的 块 是 d1、d2、d3。 证书 和 根 块 纪 含 的 一 些 元 数据 没有 
显示 。 所 有 未 标记 的 箭头 都 是 BGUID 。 


图 10-11 OceanStore 对 象 的 存储 组 织 

有 三 种 类 型 的 GUID 会 被 用 到 ， 如 图 10-12 
所 示 。 前 两 种 GUID 通 常用 来 赋 给 存储 在 | BGUID 块 GUID -个 数据 块 的 安全 散 列 码 
Tapestry 中 的 对 象 ， 它 们 都 是 根据 相关 块 的 内 | YGUID 版 本 GUID 菜 个 版 本 根 块 的 BGUID 
容 使 用 一 个 安全 的 散 列 函 数 计算 得 出 的 ， 以 后 [LAGUID 活动 G6UIDP 。 对 象 的 所 有 版 本 的 唯一 标识 符 
可 以 用 它们 来 认证 、 验 证 内 容 的 完整 性 。 因 此 图 10-12 OceanStore 中 用 到 的 标识 符 的 类 型 
它们 引用 的 块 必须 是 不 可 变 的 ， 因 为 一 个 块 的 
内 容 的 任何 改变 都 会 使 得 用 GUID 作 为 内 容 的 验证 符 变 得 毫 无 意义 。 











第 三 种 标识 符 是 AGUID 。 这 些 标识 符 用 来 〈 间 接地 ) 引用 一 个 对 象 的 所 有 版 本 构成 的 流 ， 它 
使 得 客户 可 以 访问 对 象 的 当前 版 本 或 者 任何 一 个 以 前 的 版 本 。 既 然 存 储 的 对 象 是 可 变 的 ， 那 么 用 
来 标识 它们 的 GUID 不 能 依赖 它们 的 内 容 而 产生 ， 因 为 这 样 会 导致 对 象 内 容 改变 时 对 象 的 GUID 有 
关 的 所 有 索引 信息 失效 。 

解决 的 方式 是 ， 当 一 个 新 的 存储 对 象 被 创建 时 ， 创 建 该 对 象 的 客户 会 为 其 提供 一 个 应 用 特定 
的 名 字 例如， 文件 名 )， 对 这 个 名 字 以 及 一 个 代表 对 象 拥有 者 的 公 钥 ( 见 7.2.5 节 ) 应 用 一 个 安全 
的 散 列 销 数 可 以 产生 出 代表 该 对 象 的 永久 AGUID。 在 一 个 文件 系统 应 用 中 ， 每 个 文件 名 都 有 一 个 
相应 的 AGUID 存 储 到 目录 里 。 

在 对 象 所 有 版 本 构成 的 序列 和 标识 它 的 AGUID 之 间 存 在 一 种 关联 ， 这 种 关联 被 记录 在 一 个 数 
字 签 名 证 书 中 。 通 过 使 用 主楼 贝 复制 方案 ，( 也 叫 被 动 复制 ， 见 14.3.1 节 )， 数 字 签 名 证 书 可 以 被 存 
储 和 复制 。 该 证 书 中 包含 当前 版 本 的 VGUID， 并 且 每 个 版 本 的 根 块 都 包含 有 其 前 一 版 本 的 VGUID， 
因此 它们 构成 了 一 个 引用 链 ， 使 一 个 持 有 相应 证 书 的 客户 可 以 遍历 整个 版 本 链 ( 见 图 10-11)。 为 
了 确保 关联 是 可 信和 的 并 且 是 由 授权 主体 做 出 的 ， 必 须要 有 数字 签名 证 书 。 我 们 也 期 望 客户 能 够 对 
此 进行 检查 。 当 创建 一 个 对 象 的 新 版 本 时 ， 就 会 有 一 个 新 的 证 书 产生 ， 它 包含 了 新 版 本 的 VGUID、 
时 间 戳 和 一 个 版 本 序列 号 。 | 

对 等 系统 的 信任 模型 要 求 构建 每 个 新 证 书 时 都 需要 征 得 一 小 组 主机 的 同意 (将 在 下 面 描述 )， 
这 一 小 组 主机 称 作 内 部 环 。 每 当 一 个 新 的 对 象 被 存储 到 OceanStore 中 时 ， 都 会 选择 一 小 组 主机 作为 
该 对 象 的 内 部 环 。 它 们 使 用 Tapestry 中 的 publish() 原 语 来 告知 Tapestry 某 个 新 对 象 的 AGUID 。 随 后 ， 
当 客户 请 求 该 对 象 的 证 书 时 ，Tapestry 就 把 该 请 求 路 由 给 被 请 求 对 象 内 部 环 中 的 一 个 节点 。 

新 的 数字 签名 证 书 会 替代 每 个 内 部 环节 点 上 的 旧 证 书 ， 并 且 它 还 会 被 分 发 到 更 多 的 二 级 拷贝 。 
由 客户 决定 多 和 久 检 查 一 次 是 否 有 新 版 本 存在 (例如 ， 大 多 数 NFS 系 统 在 安装 时 配置 成 客户 与 服务 器 
一 致 以 30s 的 时 间 窗 口 运 行 ， 见 8.3 节 ) 。 

通常 在 对 等 系统 中 ， 个 人 主机 被 认为 是 不 可 信任 的 。 对 主 拷贝 更 新 需要 得 到 内 部 环 中 所 有 节 
点 的 一 致 同意 。 它 们 使 用 基于 拜占庭 协定 算法 (该 算法 由 Castro 和 Liskov[2000] 提 出 ) 的 状态 机 来 
更 新 对 象 和 对 证 书 进 行 数字 签名 。 和 拜占庭 协定 的 使 用 可 以 确保 证 书 能 够 被 正确 地 维护 ， 即 使 当 内 
部 环 的 某 些 节 点 失效 或 者 有 恶意 行为 时 ， 仍 能 保持 正确 性 。 因 为 拜占庭 协定 的 计算 量 和 通信 开销 
的 增长 速度 与 参与 的 节点 主机 的 数量 的 平方 成 正比 ， 因 此 内 部 环 中 的 主机 数量 应 保持 一 个 很 小 值 ， 
并 且 通 过 使 用 刚才 提 到 的 主 拷贝 策略 ， 数 字 签 名 证 书 可 以 被 广泛 复制 。 

实施 一 次 更 新 还 包括 检查 访问 权限 和 用 其 他 挂 起 的 写 操作 序列 化 这 个 更 新 。 一 且 主 拷贝 的 更 
新 过 程 完成 ， 通 过 使 用 由 Tapestry 管 理 的 组 播 路 由 树 ， 就 可 将 新 的 结果 将 发 布 给 二 级 副本 ， 这 些 二 
级 副本 存储 在 内 部 环 外 的 主机 上 。 

由 于 数据 块 具 有 只 读 特 性 ， 因 此 它们 的 复制 可 以 采用 不 同 寻常 的 但 具有 更 有 效 存储 的 机 制 。 
该 机 制 将 每 个 块 分 成 m 个 大 小 相同 的 段 ， 这 些 段 使 用 纠 删 码 (erasure code) [Weatherspoon and 
Kubiatowicz 2002] 进 行 编码 ， 最 终 得 到 n 个 段 ， 其 中 n>m。 纠 删 码 的 关键 特性 是 ， 有 可 能 从 其 中 的 
m 个 段 中 重新 构造 出 这 个 块 。 一 个 系统 如 果 使 用 纠 删 码 ， 当 系统 缺失 的 主机 数量 不 多 于 n 一 m 时 ， 
所 有 的 数据 对 象 仍 是 可 用 的 。 在 Pond 实 现 中 ，m 的 值 是 16，n 的 值 是 32， 因 此 会 耗费 双 倍 的 存储 空 
间 ， 但 是 该 系统 在 不 丢失 数据 的 情况 下 ， 最 多 可 容忍 16 台 主机 同时 失效 。 可 以 使 用 Tapestry 来 存放 
和 检索 存储 在 网 络 中 的 段 。 

通过 从 利用 纠 删 码 形成 的 段 中 重新 构造 出 块 ， 我 们 可 获得 系统 高 容错 性 和 数据 高 可 用 性 ， 但 
是 我 们 也 要 付出 一 点 代价 。 为 了 使 影响 最 小 ， 所 有 的 块 都 要 使 用 Tapestry 存 储 到 网 络 中 。 既 然 块 可 
以 通过 段 重新 构造 ， 那 么 可 以 把 这 些 块 当 作 一 个 缓存 一 一 这 些 块 不 具备 容错 性 ， 当 需要 存储 空间 
的 时 候 ， 可 以 丢弃 它们 。 

性 能 “开发 Pond 的 目的 不 是 为 了 提供 一 个 产品 实现 ， 而 是 为 了 提供 一 个 原型 ， 以 证 明 大 规模 
对 等 文件 服务 是 可 行 的 。Pond 是 用 Java 语 言 实现 的 ， 并 且 上 面 列 出 的 设计 也 几乎 全 都 实现 了 。 对 它 
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的 评估 是 参考 了 几 个 专门 的 基准 测试 ， 并 且 让 OceanStore 对 象 模拟 了 NEFS 中 的 客户 与 服务 器 进行 的 。 
开发 者 们 根据 Andrew 基 准 [Howard et al. 1998] ( 它 能 够 模拟 一 个 软件 开发 负载 ) 测试 了 NFS 模 拟 。 
测试 的 结果 在 图 10-13 中 给 出 。 这 些 结果 是 在 运行 Linux 的 使 用 奔腾 II 1GHz 的 PC 机 上 得 到 的 。 局 域 
网 的 测试 是 在 一 个 千 光 以太 网 上 完成 的 ， 广 域 网 上 的 结果 是 用 由 因特网 连接 的 两 组 节点 得 到 的 。 


局 域 网 广域网 
Linux NFS Linux NFS Pond 








基准 中 的 主要 操作 





数字 表示 运行 Andrew 基 准 测试 不 同 阶段 所 需 的 时 间 (以 秒 计 )。 它 有 5 个 阶段 : (1) 递 
妇 地 构建 子 目 录 ; (2) 拷贝 源 树 ; (3) 检查 树 中 所 有 文件 的 状态 ， 但 不 检查 它们 的 数据 ; 
(4) 检查 文件 内 数据 的 每 个 字 节 ; (5) 编译 和 链接 文件 。 


图 10-13 模拟 NFS 的 Pond 原 型 的 性 能 评估 


根据 作者 们 得 出 的 结论 ,我 们 可 以 看 出 : 当 OceanStore / Pond 运 行 于 一 个 广域网 上 ( 即 因特网 ) 
时 ， 它 的 性 能 在 读 文件 方面 明显 地 超越 了 NFS， 而 在 更 新 文件 和 目录 方面 ， 其 性 能 则 大 约 是 NFS 的 
三 倍 。 不 过 ， 在 局 域 网 内 运行 得 到 的 性 能 结果 比较 差 。 总 之 ， 上 述 结 果 还 是 表明 ， 基 于 OceanStore 
设计 的 应 用 于 因特网 范围 内 的 对 等 文件 服务 ， 对 于 变化 不 是 很 频繁 的 分 布 式 文件 (例如 网 页 的 缓 
存 副本 ) 来 说 ， 将 会 是 一 个 高 效 的 解决 方案 。 但 是 在 广域网 内 作为 NFS 的 替代 品 来 使 用 ， 人 们 对 它 
的 潜力 仍 有 怀疑 ， 在 纯 局 域 网 内 使 用 时 ， 很 明显 它 就 不 具有 任何 竞争 力 了 。 

这 些 结果 是 在 数据 块 的 存储 没有 使 用 基于 段 和 副本 的 纠 删 码 的 情况 下 获得 的 。 公 和 钥 的 使 用 对 
Pond 操 作 的 计算 开销 有 实质 性 的 贡献 。 上 面 图 中 的 数字 针对 的 是 512 位 公 钥 的 ， 它 的 安全 性 很 好 ， 
但 并 不 完美 的 。 当 使 用 1024 位 公 钥 时 ， 对 于 涉及 文件 更 新 的 基准 测试 阶段 ， 测 试 结果 很 差 。 通 过 
使 用 专门 设计 的 基准 测试 ， 还 获得 了 其 他 一 些 结 果 ， 包 括 测量 拜占庭 协定 进程 对 文件 更 新 延迟 上 
的 影响 。 这 些 结果 都 在 100ms 到 10s 之 闻 。 更 新 吞吐 量 的 测试 最 大 达到 了 每 秒 100 次 更 新 。 


10.6.3 IVvy 文 件 系 统 


跟 OceanStore 一 样 ，Ivy[Mnuthitacharoen et al. 2002] 也 是 一 个 支持 多 用 户 的 读 / 写 文件 系统 ， 它 
也 是 在 一 个 路 由 槛 盖 层 和 分 布 式 散 列 地 址 数据 存储 上 实现 的 。 与 OceanStore 不 同 的 是 ，Ivy 文 件 系 
统 模仿 了 Sun NFS 服 务 器 。Ivy 将 由 Ivy 客 户 发 出 的 文件 更 新 请 求 作为 文件 的 状态 存储 在 日 志 中 ; 在 
它 的 本 地 缓存 不 能 满足 某 个 访问 请 求 时 ， 它 都 会 扫描 这 些 日 志 ， 然 后 重 构 这 个 文件 。 这 些 日 志 记 
录 被 保存 在 DHash 分 布 式 散 列 地 址 存储 服务 中 [Dabek et al. 2001]。( 日 志 最 早出 现在 8.5 节 描述 的 
Sprite 分 布 式 操作 系统 [Rosenblum and Ooosterhout 1992] 中 ， 用 来 记录 关于 文件 的 更 新 ， 但 那 时 它 
只 是 用 来 优化 文件 系统 更 新 的 性 能 。) 

Ivy 在 设计 上 解决 了 一 些 以 前 未 解决 的 问题 ， 这 些 问 题 源 于 对 部 分 可 信 或 不 可 靠 的 机 器 中 的 主 
机 文件 的 需求 。Ivy 解 决 的 问题 包括 : 

。 维护 文件 元 数据 (例如 Unix/NFS 文 件 系 统 中 的 节点 的 内 容 ) 的 一 致 性 ， 即 使 元 数据 有 可 能 在 

不 同 节点 并 发 地 更 新 文件 。 它 没有 使 用 锁 机 制 ， 因 为 节点 失效 或 者 网 络 的 连通 性 可 能 会 导致 

系统 无 限 长 时 间 的 阻塞 。 

* 参与 节点 之 间 的 部 分 信任 问题 和 参与 者 主机 易 受 攻击 的 问题 。 要 从 攻击 导致 的 完整 性 失效 中 

恢复 ， 应 基于 文件 系统 中 的 视图 概念 。 一 个 视图 表示 一 个 状态 ， 该 状态 是 从 一 组 参与 者 所 作 

的 更 新 日 志 中 构造 出 来 的 。 参 与 者 可 能 从 系统 中 移 除 ， 那 么 视图 被 重新 构造 时 ， 便 不 再 包括 
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被 移 除 的 参与 者 做 过 的 更 新 。 因 此 一 个 共享 的 文件 系统 被 看 作 是 由 一 组 (动态 选择 的 ) 参与 
者 实施 的 更 新 合并 在 一 起 得 到 的 结果 。 

。 允 许 网 络 分 区 期 间 继续 进行 操作 ， 这 会 导致 对 共享 文件 更 新 的 冲突 。 解 决 更 新 冲突 使 用 的 方 
法 和 Coda 文 件 系统 ( 见 15.4.3 节 ) 使 用 的 方法 相似 。 

Ivy 在 每 个 客户 节点 实现 了 一 个 基于 NFS 服 务 器 协议 的 API (和 8.3 节 的 图 8.9 列 出 的 一 组 操作 相 
似 )。 客 户 节 点 包括 一 个 Ivy 服 务 器 进程 ， 该 进程 通过 基于 键 值 (GUID， 从 记录 的 内 容 计算 出 来 的 
散 列 值 ， 见 图 10-14) 的 局 域 网 络 或 者 广域网 ， 能 够 使 用 DHash 来 存储 和 访问 节点 上 的 日 志 记 录 。 
DHash 实 现 了 一 个 类 似 于 图 10-4 所 示 的 编程 接口 ， 并 且 在 一 些 节点 上 复制 所 有 内 容 ， 以 获得 更 好 的 
灵活 性 和 可 用 性 。Ivy 的 作者 表示 ， 从 原理 上 说 ，DHash 完 全 可 以 被 其 他 分 布 式 散 列 地 址 存储 (如 
Pastry，Tapestry 或 者 CAN) 代替 。 

Ivy 节 点 


人 





图 10-14 Ivy 系 统 体系 结构 


一 个 Ivy 文 件 存储 由 一 组 更 新 日 志 组 成 ， 其 中 每 个 参与 者 拥有 一 个 日 志 。 每 个 Ivy 参 与 者 只 能 在 
自己 的 日 志 中 添加 内 容 ， 但 是 可 以 读 取 组 成 文件 系统 的 所 有 日 志 。 将 更 新 被 单独 存储 在 各 个 参与 
者 的 日 志 中 ， 这 样 当 安全 性 遭 到 破坏 或 者 出 现 一 致 性 失效 时 ， 这 些 更 新 可 以 回 深 。 

一 个 Ivy 日 志 是 由 一 系列 日 志 条 目 按照 时 间 反 序 构成 的 链表 。 每 个 日 志 条 目 都 是 带 有 时 间 玲 的 
记录 ， 代 表 用 户 想 要 更 改 文 件 内 容 、 文 件 元 数据 或 更 改 目 录 的 请 求 。DHash 使 用 记录 的 160 位 SHA-1 
散 列 值 作为 键 , 用 来 放置 和 检索 该 记录 。 每 个 参与 者 也 会 维护 一 个 可 变 的 DHash 块 (也 叫 日 志 头 部 )， 
它 指向 该 参与 者 最 近 的 日 志 记录 。 可 变 的 块 都 由 它们 的 拥有 者 赋予 一 个 加 密 的 公 钥 对 。 这 些 块 的 
内 容 会 使 用 一 个 私 钥 加 以 签名 ， 此 后 就 要 根据 相应 的 公 钥 对 内 容 进 行 认证 。 当 读 取 多 个 日 志 时 ， 
Ivy 使 用 版 本 向 量 〈 即 向 量 时 间 戳 ， 参 见 10.4 节 ) 为 所 有 的 日 志 项 进行 一 个 全 排序 。 

DHash 使 用 日 志 记 录 的 内 容 的 SHA-1 散 列 值 作为 键 值 来 存储 该 日 志 记 录 。 使 用 DHash 键 值 作为 
链接 ， 将 日 志 记录 按照 时 间 戳 顺序 构成 一 个 链表 。 日 志 头 部 持 有 最 新 日 志 条 目的 键 。 为 了 存储 和 
检索 日 志 头 部 ， 日 志 的 拥有 者 会 计算 出 一 个 公 钥 对 。 公 和 钥 的 值 将 作为 它 的 DHash 键 ， 而 私 钥 被 拥有 
者 用 来 对 日 志 头 签名 。 任 何 持 有 公 钥 的 参与 者 都 可 以 取得 相应 的 日 志 头 ， 并 且 使 用 日 志 头 来 访问 
日 志 中 所 有 记录 。 

假设 一 个 文件 系统 当前 只 有 一 个 日 志 ， 这 时 有 一 个 需要 从 文件 中 读 取 一 些 字符 的 请 求 到 来 ， 那 
么 对 于 这 个 请 求 ， 规 范 的 执行 方法 需要 首先 对 日 志 进 行 一 系列 扫描 ， 以 发 现 日 志 中 有 关 文 件 更 新 部 
分 的 记录 。 日 志 并 没有 长 度 限 制 ， 但 是 当 已 扫描 的 日 志 条 目 能 够 满足 请 求 ， 上 述 扫描 就 会 中 止 。 

如 果 要 访问 一 个 多 用 户 、 多 日 志 的 文件 系统 ， 规 范 的 算法 还 包括 比较 日 志 记录 中 的 向 量 时 间 
改 ， 以 确定 更 新 的 次 序 (因为 我 们 不 可 能 假设 存在 一 个 全 局 的 时 钟 )。 

就 算 完成 一 个 简单 的 read 请 求 , 所 需 的 时 间 也 可 能 是 很 长 的 。 通过 结合 使 用 本 地 缓存 和 快照 ， 
可 以 将 时 间 降 低 到 一 个 可 以 容忍 、 可 以 预测 的 范围 内 。 快 照 是 文件 系统 的 一 个 表示 ， 每 个 参与 
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者 在 使 用 日 志 时 ， 都 会 将 快照 作为 一 个 副产品 计算 出 来 ， 并 存储 在 本 地 。 如 果 一 个 参与 者 被 当 
前 系统 中 拒绝 ， 这 些 快照 可 能 不 再 有 效 ， 因 此 从 这 种 意义 上 说 ， 它 们 构成 了 文件 系统 的 一 个 软 
表示 。 

更 新 一 致 性 是 持续 更 新 (close-to-open) 的 ;也 就 是 说 ， 一 个 应 用 程序 对 一 个 文件 上 实施 更 新 
的 过 程 不 会 被 其 他 进程 看 到 ， 直 到 该 文件 被 关闭 为 止 。 使 用 持续 更 新 一 致 性 模型 可 以 确保 当 文 件 
关闭 时 ， 所 有 在 该 文件 上 的 write 操 作 都 可 以 保存 到 客户 节点 上 ， 然后 所 有 write 操 作 构 成 的 集合 被 
写 人 一 个 日 志 记 录 ， 同 时 产生 一 个 新 的 日 志 头 部 并 记录 下 来 (这 是 对 NFS 协 议 的 一 个 扩展 ， 这 样 可 
以 确保 当 一 个 应 用 程序 中 的 close 操 作 发 生 时 ， 该 事件 能 够 被 通知 给 Ivy 服 务 器 进程 ) 。 

既然 每 个 节点 都 有 一 个 Ivy 服 务 器 ， 并 且 它 们 都 独立 地 将 更 新 分 别 存储 在 单独 日 志 中 ， 每 个 节 
点 都 不 会 与 其 他 节点 相互 协作 ， 那 么 为 了 将 文件 的 内 容 构造 出 来 ， 读 取 日 志 时 ， 还 必须 将 存储 在 
这 些 日 志 中 的 所 有 更 新 序列 化 。 写 入 日 志 记 录 中 的 版 本 向 量 可 以 用 于 大 多 数 更 新 的 排序 ， 但 是 有 
可 能 会 出 现 冲 突 的 更 新 ， 这 个 问题 可 以 通过 应 用 特定 的 自动 化 方法 解决 或 者 像 Coda 那 样 ( 见 15.4.3 
节 ) 用 手工 的 方法 解决 。 

通过 将 已 经 提 到 的 一 些 机 制 结合 使 用 ， 我 们 可 以 获得 数据 的 完整 性 ， 日志 记录 是 不 可 改变 的 ， 
它们 的 地 址 就 是 它们 内 容 的 安全 散 列 值 ， 通 过 检查 日 志 内 容 的 公 钥 签名 ， 可 以 校 验 日 志 头 部 。 但 
是 信任 模型 可 能 会 使 某 些 恶 意 参 与 者 获得 文件 系统 的 访问 权限 。 例 如 ， 它 们 可 能 恶意 地 删除 自己 
持 有 的 文件 。 当 检测 到 这 类 事件 时 ， 这 些 恶 意 的 参与 者 会 被 从 当前 视图 中 删除 ， 它 们 的 日 志 不 再 
用 于 计算 文件 系统 的 内 容 ， 并 且 被 它们 恶意 删除 的 文件 在 新 的 视图 中 会 被 重新 生成 。 

Ivy 的 作者 们 使 用 一 种 修改 过 的 Andrew 基 准 测 试 [Howard et al. 1988] 来 比较 Ivy 和 标准 NFS 服 务 
器 在 局 域 网 和 广域网 环境 中 的 性 能 。 他 们 考虑 : (1) 使 用 本 地 DHash 服 务 器 的 Ivy 与 单个 本 地 NFS 
服务 器 相 比 ，(2) 使 用 位 于 远程 因特网 站 点 的 DHash 服 务 器 的 Ivy 与 单个 远程 NFS 服 务 器 相 比 。 他 
们 还 把 性 能 特征 作为 一 个 函数 ， 该 函数 有 三 个 参数 : 视图 中 参与 者 的 数量 、 同 时 进行 写 操作 的 参 
与 者 数量 以 及 用 来 存储 日 志 的 DHash 服 务 器 数量 。 

他 们 发 现 ， 在 大 部 分 基准 测试 中 ，Ivy 的 执行 时 间 是 NFS 的 两 倍 ， 而 对 于 所 有 的 测试 ，Ivy 的 执 
行 时 间 在 NFS 的 三 倍 以 内 。 为 广域网 部 署 的 Ivy 的 执行 时 间 是 为 局 域 网 部 署 的 Ivy 的 执行 时 间 的 10 倍 
或 更 多 ， 不 过 远程 NFS 服 务 器 也 有 相似 的 比例 。 关 于 性 能 评估 的 细节 可 以 在 Ivy 的 论文 中 找到 
[Muthitacharoen et al. 2002]。 但 是 我 们 应 该 注意 到 ，NFS 并 不 是 用 于 广域网 的 ，Andrew 文 件 系 统 
以 及 其 他 一 些 最 近 开发 出 来 的 基于 服务 器 的 系统 (例如 xFS[Anderson et al. 1996]) 在 广域网 部 团 
方面 可 以 提供 更 高 的 性 能 。 它 们 应 该 具有 更 好 的 与 lvy 做 比较 的 基础 。Ivy 最 主要 的 贡献 是 : 在 一 个 
部 分 可 信 的 环境 中 (对 于 跨越 多 个 组 织 和 管辖 区 的 大 规模 分 布 式 系统 来 说 ， 这 样 的 环境 是 不 可 避 
免 的 ) 提供 了 个 新 方法 来 管理 安全 性 和 完整 性 。 


10.7 小 结 


最 早出 现 的 对 等 体系 结构 是 为 了 支持 大 规模 的 数据 共享 ， 例 如 在 因特网 范围 内 使 用 的 Napster 
以 及 专门 用 于 数字 音乐 共享 的 Napster 派 生 系统 。 它 们 的 大 量 使 用 与 版 权 法 相 冲突 ， 但 这 并 没有 降 
低 它 们 在 技术 上 的 重要 性 ， 尽 管 技术 上 的 一 些 缺 陷 限 制 了 它们 只 能 部 署 在 那些 不 用 保证 数据 完整 
性 和 可 用 性 的 应 用 中 。 

后 来 的 一 些 研究 促进 了 对 等 中 间 件 平台 的 发 展 ， 它 们 能 够 将 请 求 发 送 给 位 于 因特网 任意 位 置 
上 的 数据 对 象 。 对 象 使 用 GUID 寻 址 ，GUID 是 一 个 纯粹 的 名 字 ， 不 含有 任何 IP 地 址 信息 。 根 据 每 
个 中 间 件 系统 特有 的 映射 函数 ， 数 据 对 象 会 被 放置 到 相应 节点 上 。 数 据 传送 需要 使 用 中 间 件 中 的 
路 由 覆盖 ， 它 维护 一 个 路 由 表 ， 并 且 能 够 沿 着 路 由 线路 不 断 转 发 请 求 ， 而 路 由 线路 是 根据 所 选择 
的 映射 函数 计算 出 相应 的 距离 来 确定 的 。 
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基于 产生 GUID 的 安全 散 列 函 数 ， 中 间 件 平台 提供 了 数据 完整 性 保证 ， 基 于 在 几 个 节点 上 复制 


对 象 以 及 具有 容错 能 力 的 路 由 算法 ， 中 间 件 平台 提供 了 数据 可 用 性 保证 。 


中 间 件 平台 已 经 被 部 署 在 几 个 大 规模 试验 性 应 用 中 ， 对 其 也 进行 了 改进 和 评估 工作 。 最 近 的 


评估 结果 表明 : 该 技术 已 经 可 以 部 署 在 那些 包含 大 量 共 享 数据 对 象 和 大 量 用 户 的 应 用 中 。 对 等 系 
统 的 优点 包括 : 


。 具 有 利用 主机 中 未 使 用 资源 (存储 资源 、 处 理 器 资源 ) 的 能 力 。 

。 具 有 很 好 的 伸缩 性 ， 可 以 支持 数量 众多 的 客户 和 主机 ， 在 网 络 链接 和 主机 计算 资源 方面 能 获 
得 极 好 的 负载 均衡 。 

*。 中 间 件 平台 的 自 组 织 特 性 使 得 系统 开销 很 大 程度 上 不 依赖 于 所 部 署 的 客户 和 主机 数量 。 

对 等 系统 的 缺点 和 当今 的 研究 主题 包括 : 

* 当 它们 应 用 于 可 变数 据 存 储 时 ， 相 对 于 可 信 的 、 集 中 式 服务 ， 它 们 的 开销 有 点 昂贵 。 

“期 望 它们 为 客户 和 主机 提供 匿名 性 ， 但 是 对 于 匿名 性 还 没有 强 有 力 的 保证 。 


练习 


10.1 


10.2 


10.3 


早期 的 文件 共享 应 用 (如 Napster) 因为 需要 维护 一 个 集中 式 的 索引 资源 并 且 还 要 维护 持 有 这 

些 索引 资源 的 主机 ， 因 此 在 可 伸缩 性 方面 受到 了 很 大 限制 。 关 于 索引 引起 的 问题 ， 你 能 想到 

其 他 解决 方法 吗 ? (第 402 页 一 第 404 页 ， 第 409 页 ，15.4 节 ) 

维护 可 用 资源 索引 问题 是 和 具体 应 用 相关 的 。 如 果 你 已 经 给 出 了 10.1 题 的 一 些 答案 ， 请 考虑 

它们 对 于 下 面 的 应 用 是 否 适 合 : (1) 音乐 和 多 媒体 文件 的 共享 ，(2) 需要 长 期 存储 的 归档 材 

料 ， 例 如 杂志 或 报纸 内 容 ，(3) 通用 的 可 读 写 文件 的 网 络 存 储 。 

用 户 希 望 常规 服务 器 (例如 ，Web 服 务 器 或 文件 服务 器 ) 能 够 给 他 们 提供 哪些 方面 的 保障 ? 
(1.4.5 节 ) 

常规 服务 器 提供 的 保障 有 可 能 由 于 下 述 原 因 遭 到 破坏 : 

a) 对 主机 的 物理 损害 。 

b) 系统 管理 员 或 系统 管理 者 的 错误 或 不 一 致 性 。 

c) 对 系统 软件 成 功 的 攻击 。 

d) 硬件 或 软件 错误 。 

对 于 上 述 的 每 种 破坏 类 型 ， 各 给 出 两 个 可 能 发 生 的 事件 例子 。 它 们 当中 哪些 违背 了 信任 体系 ， 

哪些 是 犯罪 行为 ? 如 果 它 们 发 生 在 一 台 个 人 电脑 上 ， 而 该 电脑 为 相关 对 等 服务 贡献 了 一 些 资 

源 ， 那 么 它们 算 不 算 违 背 了 信任 体系 ? 为 什么 它们 都 是 和 对 等 系统 相关 的 ? (7.1.1 布 ) 

对 等 系统 通常 依赖 不 可 靠 的 、 易 变 的 计算 机 系统 维护 它们 的 大 多 数 资 源 。 作 为 技术 发 展 的 结 

果 ， 信 用 已 经 成 为 一 种 社会 现象 。 易 变性 〈 即 不 可 预测 的 可 用 性 ) 也 常常 是 因为 人 们 自身 的 

行为 造成 的 。 详 细 阑 述 你 在 10.4 题 中 给 出 的 答案 ， 并 根据 下 面 给 出 的 计算 机 的 属性 ， 讨 论 几 

种 方式 之 间 可 能 存在 的 区 别 。 


* 所有权 

“ 地理 位 置 
“网 络 连通 性 

“所 属国 家 或 管辖 范围 


在 对 等 存储 服务 中 ， 关 于 放置 数据 对 象 的 策略 ， 你 有 什么 建议 ? 

评价 你 所 在 的 环境 中 个 人 计算 机 的 可 用 性 和 可 信任 性 。 你 应 该 评估 以 下 方面 : 
正常 运行 时 间 : 计算 机 每 天 正常 运行 并 且 连 接 到 因特网 的 时 间 。 

软件 一 致 性 : 软件 是 否 由 一 个 称职 的 技术 人 员 管 理 ? 
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10.7 


10.8 


10.9 


安全 性 : 计算 机 能 否 受 到 保护 ， 免 于 被 它 的 用 户 或 其 他 人 纂 改 ? 
基于 你 的 评估 ， 讨 论 在 你 评估 的 计算 机 集合 中 运行 数据 共享 服务 的 可 行 性 ， 并 列 出 在 对 等 数 
据 共 享 服务 中 必须 考虑 的 问题 。 (第 405 页 ~ 第 406 页 ) 
解释 怎样 使 用 对 象 的 安全 散 列 码 来 识别 对 象 并 将 消息 路 由 给 它 , 并 且 确 保 它 不 会 受到 损害 的 。 
这 个 散 列 函数 应 该 具有 什么 样 的 性 质 ? 当 很 大 一 部 分 对 等 节点 失效 时 怎样 维护 完整 性 ? 

(第 400 页 ， 第 423 页 ，7.4.3 节 ) 
经 常 有 人 认为 ， 对 等 系统 可 以 给 访问 资源 的 用 户 或 提供 资源 的 主机 以 匿名 性 支持 。 对 这 些 主 
张 进行 讨论 。 提 出 -- 种 方式 ， 它 也 许 能 够 改善 对 匿名 性 攻击 的 抵抗 力 。 (第 403 页 ) 
路 由 算法 会 根据 某 个 地 址 空间 内 节点 之 间 的 估计 距离 选择 下 一 跳 。Pastry 和 Tapestry 使 用 的 都 
是 环 状 的 线性 地 址 空间 ， 在 这 个 空间 中 使 用 一 个 函数 ， 基 于 GUID 的 不 同 数值 来 确定 节点 之 
间 的 分 离 度 。Kademlia 对 GUID 进 行 异 或 运算 。 这 对 于 维护 路 由 表 有 什么 帮助 ? 异 或 运算 是 
否 能 为 距离 指标 提供 合适 特性 ? (第 409 页 ，[Maymounkov and Mazieres 2002] ) 


10.10 当 模 拟 评 估 Squirrel 对 等 Web 缓 存 服务 时 ， 路 由 一 个 请 求 给 一 个 缓存 条 目 ， 在 Redmond 流 量 


场景 中 ， 平 均 需 要 4.11 跳 ， 在 Cambridge 流 量 场景 中 ， 平 均 需 要 1.8 跳 。 请 解释 这 个 现象 ， 并 
且说 明 它 能 够 支持 Pastry 声 称 的 理论 上 的 性 能 。 (第 410 页 , 第 421 页 ) 
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第 11 章 ”时 间 和 全 局 状态 


本 章 将 介绍 分 布 式 系统 中 与 时 间 有 关 的 若干 问题 。 时 间 是 一 个 重要 的 问题 。 例 如 ， 我 们 要 求 
全 世界 的 计算 机 为 电子 商务 交易 给 出 一 致 的 时 间 截 。 时 间 也 是 理解 分 布 式 运行 是 如 何 展开 的 一 个 
重要 的 理论 概念 。 但 时 间 又 是 分 布 式 系统 中 容易 出 现 问 题 的 方面 。 每 个 计算 机 可 以 有 自己 的 物理 
时 钟 ， 但 时 钟 通常 会 有 偏离 ， 我 们 无 法 使 它们 完全 准确 地 同步 。 本 章 将 分 析 使 物理 时 钟 大 致 同步 
的 算法 ， 然 后 解释 仔 辑 时 钟 ， 其 中 包括 向 量 时 钟 。 向 量 时 钟 是 给 事件 排序 的 一 种 工具 ， 它 不 需要 
精确 地 知道 事件 是 何 时 发 生 的 。 

全 局 物理 时 间 的 缺乏 使 得 很 难 找到 分 布 式 程序 在 执行 时 的 状态 。 我 们 通常 需要 知道 在 进程 B 处 
于 某 种 状态 时 ， 进 程 A 所 处 的 状态 ， 但 我 们 不 能 依靠 物理 时 钟 了 解 在 同一 时 刻 什 么 是 真 的 。 本 章 的 
后 半 部 分 将 研究 在 缺乏 全 局 时 间 的 情况 下 决定 分 布 式 计算 中 全 局 状态 的 算法 。 


11.1 简介 


本 章 将 介绍 一 些 基本 概念 和 算法 ， 它 们 与 分 布 式 系统 运行 时 的 监控 有 关 ， 与 发 生 在 分 布 式 系 
统 运行 中 的 事件 时 序 有 关 。 

在 分 布 式 系统 中 ， 时 间 是 一 个 重要 而 有 趣 的 问题 ， 原 因 如 下 。 第 一 ， 时 间 是 我 们 想 要 精确 度 
县 的 量 。 为 了 知道 一 台 特 定 计算 机 上 的 一 个 特定 事件 在 什么 时 间 发 生 ， 将 计算 机 的 时 钟 与 一 个 权 
威 的 外 部 时 间 源 同步 是 必要 的 。 例 如 ， 一 个 “电子 商务 ”事务 涉及 的 事件 是 在 贸易 商 的 计算 机 和 
银行 的 计算 机 上 发 生 的 。 为 了 便于 审计 ， 这 些 事件 必须 要 精确 地 标记 时 间 截 。 

第 二 ， 为 了 解决 分 布 方面 的 几 个 问题 ， 已 经 开发 了 若干 依赖 时 钟 同步 的 算法 [Liskov 1993]。 
这 些 算法 包括 维护 分 布 式 数据 一 致 性 的 算法 (13.6 节 将 讨论 用 时 间 惟 来 串 行 化 事务 ) 、 检 查 发 送 给 
服务 器 的 请 求 的 真实 性 的 算法 (Kerberos 认 证 协议 的 一 个 版 本 依赖 松散 同步 的 时 钟 ， 具 体 讨论 见 第 
7 章 ) 以 及 消除 重复 更 新 的 算法 (参见 Ladin 等 [1992])。 

爱 因 斯 坦 在 他 的 《相对 论 》 中 论证 了 从 观察 中 得 出 的 结论 ， 不 管 观察 者 的 相对 速度 如 何 ， 光 
速 对 所 有 的 观察 者 而 言 是 一 个 常量 。 他 从 这 个 假设 证 明了 ， 若 两 个 事件 在 一 个 参照 系 下 是 同时 的 ， 
但 对 于 其 他 与 这 个 参照 系 相对 运动 的 参照 系 中 的 观察 者 而 言 ， 它 们 不 一 定 是 同时 的 。 例 如 ， 在 地 
球 上 的 观察 者 和 在 宇宙 飞船 中 飞 向 太空 的 观察 者 对 事件 之 间 的 时 间 间 隔 会 有 不 同 的 意见 ， 当 他 们 
的 相对 速度 增加 时 ， 他 们 的 看 法 就 相差 更 大 。 

此 外 ， 对 于 两 个 不 同 的 观察 者 ， 两 个 事件 的 相对 顺序 甚至 是 相反 的 。 但 如 果 一 个 事件 能 引起 
另 一 个 事件 的 发 生 ， 那 么 上 述 情况 就 不 可 能 出 现 。 在 这 种 情况 下 ， 对 所 有 的 观察 者 而 言 ， 虽 然 观 
察 到 的 在 原因 和 结果 之 间 的 时 间 间 隔 不 同 ， 但 物理 效果 跟随 在 物理 原因 之 后 。 这 样 就 证 明了 ， 物 
理事 件 的 时 序 对 观察 者 而 言 是 相对 的 ， 牛 顿 的 绝对 物理 时 间 概 念 是 不 足 信 的 。 在 度量 时 间 间 隔 时 ， 
宇宙 中 没有 一 个 专门 的 能 引起 我 们 兴趣 的 物理 时 钟 。 

在 分 布 式 系统 中 ， 物 理 时 间 的 概念 也 是 不 确定 的 。 这 不 是 由 于 相对 性 的 影响 ， 相 对 性 在 常规 
计算 机 中 是 可 忽略 或 不 存在 的 〈 除 非 在 太空 旅行 中 用 计算 机 计数 ! ) 。 问 题 是 我 们 的 能 力 有 限 ， 不 
能 准确 记录 不 同 节点 上 的 事件 的 时 间 ， 以 便 知 道 事件 发 生 的 顺序 或 事件 是 否 同时 发 生 。 没 有 绝对 
的 全 局 时 间 。 可 是 ， 我 们 有 时 需要 观察 分 布 式 系统 ， 确 定 事件 的 某 些 状态 是 否 同时 出 现 。 例 如 ， 
在 面向 对 象 系统 中 ， 我 们 要 确定 对 某 一 对 象 的 引用 是 否 已 不 存在 ， 即 是 否 对 象 已 经 变 成 无 用 单元 
(这 时 我 们 能 释放 它 的 内 存 ) 。 做 出 以 上 判断 需要 观察 进程 的 状态 〈 找 出 它们 是 否 包含 引用 ) 和 进 “ 134] 
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程 之 间 的 信道 (万 一 包含 引用 的 消息 正在 传送 过 程 中 )。 
在 本 章 的 前 半 部 分 ， 我 们 将 分 析 用 消息 传递 使 计算 机 时 钟 能 大 致 同步 的 方法 。 接 着 介绍 逻辑 
时 钟 ， 其 中 包括 向 量 时 钟 。 向 量 时 钟 用 于 定义 事件 的 顺序 ， 它 不 需要 度量 事件 发 生 时 的 物理 时 间 。 
本 章 的 后 半 部 分 将 描述 一 些 算法 ， 这 些 算法 用 于 捕获 分 布 式 系统 在 运行 时 的 全 局 状态 。 


11.2 时 钟 、 事 件 和 进程 状态 


第 2 章 介 绍 了 分 布 式 系统 中 进程 之 间 的 交互 模型 。 我 们 将 精 化 该 模型 ， 以 帮助 大 家 理解 如 何 随 
系统 的 执行 描述 系统 的 演化 ， 如 何 给 系统 执行 过 程 中 用 户 感 兴趣 的 事件 打 时 间 惟 。 我 们 将 从 如 何 
给 一 个 进程 中 发 生 的 事件 排序 和 打 时 间 惟 开始 。 

设 一 个 分 布 式 系统 由 入 个 进程 p; (i = 1, 2,…, 入 组成， 记 为 P。 每 个 进程 在 一 个 处 理 器 上 执行 ， 
处 理 器 之 间 不 共享 内 存 (第 18 章 将 考虑 共享 内 存 的 进程 )。 在 PP 中， 进程 p; 的 状态 是 s;,， 通 常 在 进 
程 执行 时 进行 状态 变换 。 进 程 的 状态 包括 进程 中 所 有 变量 的 值 ， 还 包括 在 它 影响 的 本 地 操作 系统 
环境 中 的 对 象 (如 文件 ) 的 值 。 此 处 假设 除了 通过 网 络 发 送 消 息 外 ， 进 程 之 间 不 能 相互 通信 。 例 
如 ， 如 果 进 程 操纵 机 器 人 手臂 〈 这 些 手臂 连接 到 系统 中 各 自 独 立 的 节点 ) ， 那 么 不 允许 通过 机 器 人 
通过 握手 来 通信 。 

当 每 个 进程 zi 执行 时 ， 它 会 采取 一 系列 动作 ， 每 个 动作 或 是 一 个 消息 Send/Receive 操 作 ， 或 是 
一 个 转换 状态 p, 的 操作 ， 即 改变 s; 中 的 一 个 或 多 个 值 。 实 际 上 ， 我 们 可 以 根据 应 用 ， 选 择 使 用 动作 
的 高 层 描述 。 例 如 ， 如 果 ? 史 中 的 进程 用 于 一 个 电子 商务 应 用 ， 那 么 动作 可 能 是 “客户 发 出 订单 请 息 ” 
或 “交易 服务 器 将 事务 情况 记录 到 日 志 中 ”。 

我 们 把 事件 定义 成 发 生 了 一 个 动作 (通信 动作 或 状态 转换 动作 )， 该 动作 由 一 个 进程 完成 。 进 
程 p, 中 的 事件 序列 可 以 用 全 序 方式 排列 ， 我 们 用 事件 之 间 的 关系 一 表示。 也 就 是 说 ， 当 且 仅 当 在 p， 
中 事件 e 在 e 前 发 生 时 ， 表 示 为 e 一 ,e'。 不 论 进程 是 不 是 多 线程 的 ， 这 个 排序 都 是 定义 良好 的 ， 因 为 
我 们 假设 进程 在 单个 处 理 器 上 执行 。 

现在 ， 我 们 把 进程 p, 的 历史 定义 成 在 该 进程 中 发 生 的 一 系列 事件 ， 而 且 按 关系 一 ;排序 ; 

history (p) = h,= <e0，e1，e2，…> 

时 钟 ”我们 已 经 知道 如 何在 一 个 进程 中 给 事件 排序 ， 但 还 不 知道 如 何 给 事件 标记 时 间 发 ， 
即 给 事件 赋予 一 个 日 期 和 时 间 。 每 个 计算 机 有 它们 自己 的 物理 时 钟 。 这 些 时 钟 是 电子 设备 ， 计 
算 有 固定 频率 晶体 的 振荡 次 数 ， 把 计数 值 分 割 一 下 ， 保 存在 计数 器 寄存 器 中 。 可 以 对 时 钟 设备 
编程 以 便 按照 一 定 间 隔 产 生 中 断 ， 从 而 实现 时 间 片 之 类 的 功能 。 不 过 ， 我 们 可 以 不 关心 这 个 方 
面 的 时 钟 操作 。 操 作 系 统 读 取 节 点 的 硬件 时 钟 值 H; (1)， 按 一 定 比 例 放 大 ， 再 加 上 一 个 偏 移 量 ， 
从 而 产生 软件 时 钟 Ci(t) = aHi (71) + 6， 用 于 近似 度量 进程 p 的 实际 物理 时 间 t。 换 名 话说 ， 当 在 一 
个 绝对 参照 系 中 的 实际 时 间 为 {时 ，Ci(D) 则 是 软件 时 钟 的 读数 ， 例 如 ，Ci() 可 以 是 从 一 个 方便 的 
参考 时 间 开 始 的 已 流逝 的 以 纳 秒 为 单位 的 64 位 值 。 通 常 ， 时 钟 不 完全 准确 ， 所 以 Ci(7) 与 :不 一 样 。 
然而 ， 如 果 Ci() 表 现 得 相当 好 (我们 将 马上 研究 时 钟 正确 性 的 概念 )， 那 么 我 们 能 用 它 的 值 给 p， 
的 事件 打 时 间 戳 。 注 意 ， 连 续 的 事件 将 相对 应 于 不 同 的 时 间 惟 ， 条 件 是 时 钟 分 辨 率 (时 钟 值 更 
新 的 周期 ) 比 连续 事件 之 间 的 时 间 间 隔 小 。 事 件 发 生 的 速率 取决 于 处 理 器 指令 周期 长 度 这 样 的 
因素 。 

时 钟 偏 移 和 时 钟 漂移 ”计算 机 时 钟 与 其 他 时 钟 一 样 ， 并 不 是 完全 一 致 的 (如 图 11-1 所 示 )。 
两 个 时 钟 的 读数 之 间 的 瞬间 不 同 称 为 时 钟 偏 移 。 在 计算 机 中 使 用 的 基于 晶体 的 时 钟 和 其 他 时 钟 
一 样 有 时 钟 河 移 问 题 ， 即 它们 以 不 同 的 频率 给 事件 计数 ， 所 以 会 产生 差异 。 时 钟 的 振荡 器 在 物 
理 上 会 有 不 同 ， 因 此 振荡 器 的 频率 会 有 不 同 。 而 且 ， 时 钟 频率 有 时 会 随 温度 不 同 而 有 所 差别 。 
有 些 设计 试图 弥补 这 种 不 同 ， 但 这 些 设计 不 能 完全 消除 这 种 问题 。 两 个 时 钟 之 间 的 振荡 周期 的 
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不 同 可 能 相对 很 小 ， 经 过 许多 次 的 累加 仍 会 形成 在 时 钟 计数 器 中 可 观察 到 的 差异 ， 不 论 这 两 个 
时 钟 的 初始 值 是 多 么 的 一 致 。 时 钟 的 漂移 率 是 指 在 由 参考 时 钟 度量 的 每 个 单位 时 间 内 ， 在 时 钟 
和 名 义 上 完美 的 参考 时 钟 之 间 的 伪 移 量 。 对 普通 的 基于 石英 晶体 的 时 钟 ， 漂 移 率 大 约 在 10“s/s， 
即 每 1 000 000s 或 11.6 天 有 is 的 偏差 。 "高 精度 ”的 石英 钟 的 漂移 率 大 约 为 10 "或 10“。 


Q QO QQ Q 


图 11-! 分 布 式 系统 中 计算 机 时 钟 之 间 的 偏 移 


通用 协调 时 间 ”计算 机 时 钟 能 与 外 部 的 高 精度 时 间 源 同步 。 最 准确 的 物理 时 钟 使 用 原子 振荡 
器 ， 它 的 漂移 率 大 约 为 10"*。 这 些 原子 时 钟 的 输出 被 用 作 实 际 时 间 的 标准 ， 称 为 国际 原子 时 间 
(International Atomic Time)。 从 1967 年 起 ， 标 准 的 秒 被 定义 为 钨 (Cs'”) 在 两 个 层次 之 间 的 跳跃 
周期 的 9 192 631 770 倍 。 

秒 、 年 和 其 他 我 们 使 用 的 时 间 单位 来 源 于 天 文 时 间 。 它 们 最 初 按 地 球 的 自转 和 公转 定义 。 然 
而 ， 地 球 自转 周期 在 慢 慢 变 长 ， 这 主要 因为 潮汐 的 摩擦 力 ， 大 气 的 影响 和 地 球 内 核 的 对 流 也 导致 
周期 短期 的 增加 和 减少 。 所 以 天 文 时 间 和 原子 时 间 并 不 一 致 。 

通用 协调 时 间 (Coordinated Universal Time，UTC (该 缩写 是 根据 法 语 得 来 的 )) 是 国际 计时 
标准 。 它 基于 原子 时 间 ， 但 偶尔 需要 增加 疼 秒 或 极 偶 尔 的 情况 下 要 删除 闭 秒 ， 以 便 同 天 文 时 间 保 
持 一 致 。UTC 信 号 由 覆盖 世界 大 部 分 地 方 的 广播 电台 和 卫星 进行 同步 和 广播 ， 例 如 ， 在 美国 ， 广 
播 电台 WWYV 用 几 个 短波 频率 广播 时 间 信 号 。 卫 星 设备 包括 全 球 定位 系统 (Global Positioning 
System，GPS ) 。 

接收 器 可 从 商家 购买 。 与 “极为 准确 的 ”UTC 相 比 ， 从 陆地 广播 站 接收 的 信号 具有 0.1 ~ 10ms 
级 的 精度 ， 这 取决 于 所 使 用 的 广播 站 。 从 GPS 接收 的 信号 能 精确 到 1ms。 与 接收 器 相连 的 计算 机 能 
用 这 些 时 序 信号 同步 它们 的 时 钟 。 计 算 机 也 能 通过 电话 线 从 诸如 美国 国家 标准 和 技术 研究 所 这 样 
的 组 织 接收 时 间 ， 其 精度 大 约 为 几 毫 秒 。 : 


11.3 同步 物理 时 钟 


为 了 知道 在 分 布 式 系统 史 的 进程 中 事件 发 生 的 具体 时 间 (例如 ， 为 了 进行 会 计 工 作 ) ， 有 必要 
用 权威 的 外 部 时 间 源 同步 进程 的 时 钟 C.。 这 标 为 外 部 同步 。 如 果 时 钟 C 与 其 他 时 钟 同步 到 一 个 已 知 
的 精度 ， 那 么 我 们 能 通过 本 地 时 钟 度量 在 不 同 计算 机 上 发 生 的 两 个 事件 的 间隔 一 一 即使 它们 没有 
必要 与 外 部 时 间 源 同步 。 这 称 为 内 部 同步 。 我 们 在 实际 时 间 7/ 的 一 个 间隔 上 定义 两 个 同步 模式 : 

外 部 同步 : 设 一 个 同步 范围 D>0，UTC 时 间 源 为 S$，/ 中 的 所 有 实际 时 间 为 :， 满 足 15(1) 一 
Ci (DIi<D， 其 中 i = 1, 2, …,N。 该 定义 的 另 一 种 说 法 是 时 钟 C 在 范围 D 中 是 准确 的 。 

内 部 同步 : 设 同步 范围 D>0，/ 中 的 所 有 实际 时 间 为 :， 则 有 IC; (1) 一 C) (DI<D， 基 中 i,j = 1, 2， 
…,j, N。 该 定义 的 另 一 种 说 法 是 时 钟 C 在 范围 p 中 是 一 致 的 。 

内 部 同步 的 时 钟 没 必要 进行 外 部 同步 ， 因 为 即使 它们 相互 一 致 ， 它 们 与 时 间 的 外 部 源 也 有 漂 
移 。 然 而 ， 根 据 定 义 ， 如 果 系 统 ? 在 范围 了 内 是 外 部 同步 的 ， 那 么 同一 系统 在 范围 2D 内 是 内 部 同 
步 的 。 

时 钟 正确 性 概念 有 不 同 的 提 法 。 通 常 ， 如 果 一 个 硬件 时 钟 H 的 漂移 率 在 一 个 已 知 的 范围 p>0 内 
(该 值 从 制造 商 处 获得 ， 例 如 10“s/s)， 那 么 该 时 钟 就 是 正确 的 。 这 表明 度量 实际 时 间 tht' (1'>1) 





es] 
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的 时 间 间 隔 的 误差 是 有 界 的 : 
(1—P)(t' — Ds H(t") ~ H(tE(1+P)(1—?) 
该 条 件 禁 止 了 硬件 时 钟 值 (在 正常 操作 中 ) 的 跳跃 。 有 时 ， 我 们 也 要 求 软件 时 钟 遵循 该 条 件 。 
但 用 一 个 较 弱 的 单调 性 条 件 就 足够 了 。 单 调 性 是 指 一 个 时 钟 C 前 进 的 条 件 : 
fr'>t1= C()>C0) 


例如 ，UNIX 的 make 是 一 个 工具 ， 用 于 编译 那些 自 上 一 次 编译 以 来 被 修改 的 源 文件 。make 将 
源 文 件 和 相应 的 目标 文件 的 修改 日 期 进行 比较 ， 以 决定 是 否 进行 编译 。 如 果 一 台 计 算 机 时 钟 运行 
得 快 了 ， 在 编译 源 文 件 后 修改 源 文件 前 把 该 时 钟 调整 正确 ， 那 么 会 出 现 源 文件 在 编译 前 被 修改 的 
结果 ， 此 时 make 就 会 错误 地 不 编译 该 源 文件 。 

尽管 发 现时 钟 运行 快 了 ， 我 们 还 是 能 获得 单调 性 的 。 我 们 仅 需要 改变 比率 ， 使 得 对 时 间 的 更 
新 与 应 用 一 样 。 可 不 改变 硬件 时 钟 滴答 的 比率 而 用 软件 达到 这 一 目标 ， 回 忆 等 式 C,(D = aE(D + p， 
这 里 我 们 可 自由 选择 a 和 8 的 值 。 

有 时 使 用 的 一 个 混合 正确 性 的 条 件 是 要 求 时 钟 遵循 单调 性 条 件 ， 同 时 它 的 漂移 率 在 两 个 同步 
点 之 间 是 有 界 的 ， 但 是 在 同步 点 允许 时 钟 值 可 跳跃 前 进 。 

不 满足 正确 性 条 件 的 时 钟 就 被 定义 成 是 有 故障 的 。 当 时 钟 完 全 停止 滴答 ， 称 为 时 钟 的 前 清 故 
障 。 其 他 时 钟 故障 是 随机 故障 。 有 千年 虫 的 时 钟 故障 就 是 此 类 故障 的 例子 ， 它 破坏 了 单调 性 条 件 ， 
因为 将 1999 年 12 月 31 日 后 的 日 期 登记 成 1900 年 1 月 1 日 ， 而 不 是 2000 年 1 月 1 日 。 另 一 个 例子 是 时 钟 
的 电池 不 足 ， 它 的 漂移 率 会 突然 变 得 很 大 。 


注意 ， 根 据 定义 ， 时 钟 不 必 非 常 正确 。 因 - 0 
为 目标 可 以 是 内 部 同步 而 不 是 外 部 同步 ， 正 确 


的 标准 仅仅 与 时 钟 “ 机 制 ”的 正常 运行 有 关 ， m 本 
而 不 是 它 的 绝对 设置 。 
现在 描述 外 部 同步 和 内 部 同步 的 算法 。 图 112 用 时 间 服 务 器 进行 时 钟 同步 


11.3.1 同步 系统 中 的 同步 

考虑 最 简单 的 情况 ， 在 一 个 同步 分 布 式 系统 中 ， 两 个 进程 之 间 的 内 部 同步 。 在 同步 系统 中 ， 
已 知 时 钟 漂 移 率 的 范围 、 最 大 的 消息 传输 延迟 和 进程 每 一 步 的 执行 时 间 ( 见 2.3.1 节 )。 

一 个 进程 在 消息 m 中 将 本 地 时 钟 的 时 间 ! 发 送 给 另 一 个 进程 。 原 则 上 ， 接 收 进程 可 以 将 它 的 时 
钟 设 成 !+ Ts,， 基 中 Ti 是 在 两 个 进程 间 传输 m 所 花 的 时 间 。 两 个 时 钟 应 该 能 一 致 (因为 是 内 部 同 
步 ， 它 不 管 发 送 进程 的 时 钟 是 否 精确 )。 

但 Ton 是 常常 变化 和 未 知 的 。 通 常 ， 其 他 进程 与 要 同步 的 进程 在 各 自 的 节点 上 竞争 资源 ， 其 他 
消息 与 m 竞 争 网 络 。 如 果 没 有 其 他 进程 要 执行 ， 也 没有 其 他 网 络 通 信 ， 那 么 总 有 一 个 最 小 的 传输 时 
间 min，min 可 以 被 度量 或 适当 地 估计 出 来 。 

根据 定义 ， 在 一 个 同步 系统 中 ， 用 于 传输 消息 的 时 间 有 一 个 上 界 max。 设 消息 传输 时 间 的 不 确 
定性 为 4， 那么 x= (max 一 min)。 如 果 接收 方 将 它 的 时 钟 设 成 :+ min， 那 么 时 钟 偏 移 至 多 为 4， 因为 
事实 上 消息 可 能 花 了 max 时 间 才 到 达 。 类 似 地 ， 如 果 将 时 钟 设 成 :+ max， 那么 时 钟 偏 移 可 能 为 u。 
然而 ， 如 果 将 时 钟 设 成 1+ (max+ min)Y2， 那 么 时 钟 偏 移 至 多 为 w/2。 通 常 ， 对 一 个 同步 系统 ， 同 步 
N 个 时 钟 时 ， 可 获得 的 时 钟 偏 移 最 优 范围 是 4(1 一 1/N)[Lundelius and Lynch1984]。 

大 多 数 实际 的 分 布 式 系统 是 异步 的 。 导致 消 息 延 迟 的 因素 有 很 多 , 消息 传输 延迟 没有 上 界 max， 
在 因特网 上 尤其 如 此 。 对 于 -- 个 异步 系统 ， 我 们 只 能 说 T= min+x， 其 中 x 之 0。x 的 值 在 某 些 情 
况 下 是 不 知道 的 ， 虽然 对 特定 的 环境 ， 值 的 分 布 是 可 以 度量 的 。 
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11.3.2 同步 时 钟 的 Cristian 方 法 

Cristian[1989] 建 议 使 用 一 个 时 间 服 务 器 ， 它 连接 到 一 个 接收 UTC 信号 的 设备 上 ， 用 于 实现 外 
部 同步 。 在 接收 到 请 求 后 ， 服 务 器 进程 S 根 据 它 的 时 钟 提供 时 间 ， 如 图 11-2 所 示 。Cristian 观 察 到 ， 
虽然 在 异步 系统 中 消息 传输 延迟 没有 上 界 ， 但 在 一 对 进程 之 间 进 行 消息 交换 的 往返 时 间 通 常 相当 
短 ， 只 有 几 分 之 一 秒 。 他 把 算法 描述 成 带 条 件 的 ， 只 有 在 客户 和 服务 器 之 间 的 往返 时 间 与 所 要 求 
的 精确 性 相 比 足够 短 ， 该 方法 才能 达到 同步 。 

进程 p 在 消息 m, 中 请 求 时 间 ， 在 消息 m 中 接收 时 间 值 : (1 在 从 5 的 计算 机 传送 之 前 的 最 后 可 能 时 
刻 插入 到 m,)。 进 程 p 记 录 了 发 送 请 求 m, 和 接收 应 答 m 的 整个 往返 时 间 T,,,y。 如 果 时 钟 漂 移 率 小 ， 那 
么 该 值 可 以 比较 精确 地 度量 这 段 时 间 。 例 如 ， 往 返 时 间 在 LAN 上 上 应该 达到 1 ~ 10ms 数 量 级 ， 漂 移 率 
为 10 “ 秒 / 秒 的 时 钟 在 这 段 时 间 里 变化 至 多 10 ms。 

假设 5 在 m, 中 放置 !， 往 返 时 间 在 时 间 点 之 前 和 之 后 平分 ， 那 么 估计 进程 p 应 该 设置 它 的 时 钟 
的 时 间 为 + Twa/2。 正 常情 况 下 ， 这 是 一 个 相当 精确 的 假设 ， 除 非 两 个 消息 在 不 同 的 网 络 上 传 
递 。 如 果 最 小 传输 时 间 min 的 值 是 已 知 的 或 者 能 保守 地 估计 ， 那 么 我 们 能 用 如 下 方法 判断 结果 的 
精确 性 。 

5 能 在 m 中 放置 时 间 的 最 早点 是 在 p 发 出 m, 之 后 的 min。 它 能 做 此 工作 的 最 近 时 间 点 是 在 m, 到 达 p 
之 前 的 min。 因 此 ， 应 答 消 息 到 达 时 $ 的 时 钟 的 时 间 位 于 范围 [1 + min, 1 + Tw 一 min] 内 。 这 个 范围 
的 宽度 是 Ti 一 2min， 所 以 精确 度 是 + (Ty/2 一 min)。 

通过 给 8 发送 几 个 请 求 〈 应 该 每 隔 一 段 时 间 发 送 一 个 请 求 以 便 井 成 拥堵 ; 并 用 T 的 最 小 值 给 
出 最 精确 的 估计 ， 这 样 可 在 一 定 程度 上 应 对 可 变性 。 精 确 性 要 求 越 高 ， 达 到 它 的 可 能 性 越 小 。 这 是 
因为 最 精确 的 结果 源 于 两 个 消息 在 接近 min 的 时 间 中 传输 一 一 在 繁忙 的 网 络 中 ， 这 是 不 大 可 能 的 。 

关于 Cristian 算 法 的 讨论 ”如 上 所 述 ，Cristian 方 法 存在 的 问题 与 所 有 由 单个 服务 器 实现 的 服务 
相关 ， 单 个 时 间 服 务 器 可 能 出 现 故 障 ， 以 至 于 暂时 不 能 同步 。 因 此 ，Cristian 建 议 应 该 由 -一 组 同步 
时 间 服 务 器 提供 时 间 ， 每 一 个 服务 器 都 有 一 个 UTC 时 间 信 号 接收 器 。 例 如 ， 一 个 客户 可 以 将 它 的 
请 求 组 播 到 所 有 服务 器 并 仅 使 用 获得 的 第 一 个 应 答 。 

用 假 的 时 间 值 进行 应 答 的 故障 时 间 服 务 器 或 故意 用 不 正确 的 时 间 做 应 答 的 假冒 的 时 间 服 务 器 
都 会 给 计算 机 系统 带 来 灾难 。 这 些 问 题 超出 了 Cristian[1989] 所 描述 的 工作 的 范围 ，Cristian 假 设 外 
部 时 间 信号 源 是 自 检测 的 。Cristian 和 Fetzer[1994] 找 述 了 内 部 时 钟 同 步 的 条 件 协 议 族 ， 其 中 每 一 个 
协议 都 能 容 妨 某 类 故障 。Srikanth 和 Toueg[1987] 首 先 描述 了 一 个 算法 ， 它 在 容忍 一 些 故 障 的 同时 ， 
在 同步 时 钟 的 精确 性 上 是 最 优 的 。Dolev 等 [1986] 认 为 ， 如 果 f 是 所 有 N 个 时 钟 中 出 错时 钟 的 个 数 ， 
那么 要 让 其 他 正确 的 时 钟 仍 能 达成 一 致 ， 必 须 满 足 N>3f。 处 理 出 错时 钟 的 问题 可 由 下 面 描 述 的 
Berkeley 算 法 解决 。 恶 意 干扰 时 间 同 步 的 问题 使 用 认证 技术 来 应 对 。 

11.3.3 Berkeley 算 法 


Gusella 和 Zatti[1989] 描 述 了 一 个 内 部 同步 的 算法 ， 用 于 运行 Berkeley UNIX 的 计算 机 群 。 在 该 
算法 中 ， 选 择 一 台 协 调 者 计算 机 作为 主机 。 与 Cristian 协 议 不 同 ， 这 个 计算 机 定期 轮 询 其 他 要 同步 
时 钟 的 计算 机 〈 称 为 从 局 机 )。 从 属 机 将 它们 的 时 钟 值 返回 给 主机 。 主 机 通过 观察 往返 时 间 (类 似 
Cristian 的 技术 ) 来 估计 它们 的 本 地 时 钟 时 间 ， 并 计算 所 获得 值 (包括 它 自己 时 钟 的 读数 ) 的 平均 
值 。 概 率 的 均衡 是 指 这 个 平均 值 能 抵偿 单个 时 钟 跑 快 或 跑 慢 的 趋势 。 协 议 的 准确 性 依赖 于 主机 和 
从 属 机 之 间 名 义 上 最 大 的 往返 时 间 。 主 机 排除 了 某 些 比 这 个 最 大 值 更 大 的 时 间 读 数 。 

主机 不 是 发 送 更 新 的 当前 时 间 给 其 他 计算 机 (这 种 方式 会 因为 消息 传递 时 间 而 引入 更 多 的 不 确 
定性 ) ， 而 是 发 送 每 个 从 属 机 的 时 钟 所 需 的 调整 量 。 这 个 量 可 以 是 一 个 正 数 ， 也 可 以 是 一 个 负数 。 

算法 避免 了 读 取 错误 时 钟 的 问题 。 如 果 用 一 个 一 般 的 平均 值 的 话 ， 这 种 有 错 的 时 钟 会 产生 极 
大 的 负面 影响 。 主 机 采用 容错 平均 值 。 也 就 是 说 ， 在 时 钟 中 选择 差 值 不 多 于 一 个 指定 量 的 子 集 ， 
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平均 值 仅 根据 这 些 时 钟 的 读数 计算 。 

Gusella 和 Zatti 描 述 了 涉及 15 台 计算 机 的 实验 ， 使 用 他 们 的 协议 ， 这 些 计 算 机 的 时 钟 可 同步 在 
20 一 25ms 之 内 。 本 地 的 时 钟 漂 移 率 小 于 2 x 10“， 最 大 的 往返 时 间 为 10ms。 

如 果 主 机 出 现 故障 ， 要 能 选举 另 一 个 主机 接管 ， 并 像 它 的 前 任 一 样 工作 。12.3 节 将 讨论 一 些 通 
用 的 选举 算法 。 注 意 ， 它 们 并 不 保证 在 有 限时 间 内 选 出 一 个 新 的 主机 ， 所 以 如 果 使 用 它们 ， 在 两 
个 时 钟 之 间 的 不 同 应 不 受 约束 。 


11.3.4 网 络 时 间 协 议 


Cristian 的 方法 和 Berkeley 算 法 主要 应 用 于 企业 内 部 网 。 网 络 时 间 协 议 (Network Time Protocol， 
NTP) [Mills 1995] 定 义 了 时 间 服 务 的 体系 结构 和 在 因特网 上 发 布 时 间 信 息 的 协议 。 
NTP 主 要 的 设计 目标 和 特色 如 下 : 


。 提 供 一 个 服务 ， 使 得 跨 因特网 的 用 户 能 精确 

地 与 UTC 同步 尽管 在 因特网 通信 中 会 遇 到 > i 

大 的 可 变 的 消息 延迟 ， 但 NTP 采 用 了 过 滤 时 J 2 
序数 据 的 统计 技术 ， 以 辨别 不 同 服务 器 的 时 pip 对 
序数 据 。 3 3 3 
。 提 供 一 个 能 在 漫长 的 连接 丢失 中 生存 的 可 靠 
服务 : 提供 元 余 的 服务 器 并 在 服务 器 之 间 提 注 :箭头 表示 同步 控制 ， 数 字 表示 层次 。 
供 元 余 的 路 径 。 如 果 其 中 一 个 服务 器 不 可 达 ， 图 11-3 在 NTP 实 现 中 同步 子 网 的 例子 
能 重 配置 服务 器 以 便 继续 提供 服务 。 

。 使 得 客户 能 经 常 有 效 地 重新 同步 以 抵消 在 大 多 数 计算 机 中 存在 的 漂移 率 ; 服务 能 被 扩展 到 处 
理 大 量 客户 和 服务 器 的 情况 。 


“提供 保护 ， 防 止 对 时 间 服 务 的 干扰 ， 无 论 是 恶意 的 还 是 偶然 的 : 时 间 服 务 使 用 认证 技术 来 检 

查 来 自 声称 是 可 信 源 的 时 序数 据 。 它 也 验证 发 送 给 它 的 消息 的 返回 地 址 。 

NTP 服 务 由 因特网 上 的 服务 器 网 提供 。 主 服务 器 直接 连接 到 像 无 线 电 时 钟 这 样 的 接收 UTC 的 
时 间 源 ， 二 级 服务 器 最 终 与 主 服务 器 同步 。 服 务 器 在 一 个 称 为 同步 子 同 的 逻辑 层次 中 连接 ( 见 图 
11-3)， 其 中 的 分 层 叫 层次 。 主 服务 器 占据 层次 1:， 它们 是 根 。 层 次 2 的 服务 器 是 与 主 服务 器 直接 同 
步 的 二 级 服务 器 ， 层 次 3 的 服务 器 与 层次 2 的 服务 器 同步 ， 依 此 类 推 。 最 低层 (叶子 ) 服务 器 在 用 
户 的 工作 站 上 执行 。 

层次 数 大 的 服务 器 上 的 时 钟 比 层次 数 小 的 服务 器 上 的 时 钟 更 容易 不 准确 ， 因 为 在 同步 的 每 一 
层 都 会 引入 误差 。NTP 在 评估 由 某 个 服务 器 拥有 的 计时 数据 的 质量 时 ， 也 考虑 了 整个 消息 到 根 的 
往返 时 间 延 迟 。 

在 服务 器 不 可 达 或 出 现 故 障 时 ， 同 步子 网 可 以 重 配 置 。 例 如 ， 如 果 主 服务 器 的 UTC 源 出 现 故 
障 ， 那 么 它 能 变 成 层次 2 的 二 级 服务 器 。 如 果 二 级 服务 器 的 常规 同步 源 出 现 故障 或 变 得 不 可 达 ， 那 
么 它 可 以 与 另 一 个 服务 器 同步 。 

NTP 服 务 器 用 以 下 三 种 模式 中 的 一 种 相互 同步 : 组 播 、 过 程 调 用 和 对 称 模式 。 组 播 模 式 用 于 
高 速 LAN。 一 个 或 多 个 服务 器 定期 将 时 间 组 播 到 由 LAN 连 接 的 其 他 计算 机 上 的 服务 器 中 ， 并 设 
置 它们 的 时 钟 〈 假 设 延 迟 很 小 ) 。 这 个 模式 能 达到 的 准确 性 较 低 ， 但 对 许多 目的 而 言 ， 这 已 经 足 
够 了 。 

过 程 调 用 模式 类 似 上 述 的 Cristian 算 法 的 操作 。 在 这 个 模式 下 ， 一 个 服务 器 从 其 他 计算 机 接收 
请 求 ， 并 用 时 间 戳 (当前 的 时 钟 读 数 ) 应 答 。 这 个 模式 适合 准确 性 要 求 比 组 播 更 高 的 场合 ， 或 不 
能 用 硬件 支持 组 播 的 场合 。 例 如 ， 在 同一 LAN 或 邻近 LAN 中 的 文件 服务 器 ， 它 们 需要 为 文件 访问 
保持 准确 的 时 序 信息 ， 这 时 就 可 以 以 过 程 调用 模式 与 本 地 服务 器 打交道 。 
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最 后 ， 对 称 模 式 可 用 于 在 LAN 中 提供 时 间 信 息 的 服务 器 和 同步 子 网 的 较 高 层 (层次 数 较 小 )， 
即 要 获得 最 高 准确 性 的 地 方 。 按 对 称 模式 操作 的 一 对 服务 器 交换 有 时 序 信息 的 消息 。 时 序数 据 作 
为 服务 器 之 间 的 关联 的 一 部 分 被 保留 ， 维 护 时 序数 据 是 为 了 提高 时 间 同 步 的 精确 性 。 

在 所 有 的 模式 中 ， 使 用 标准 UDP 因特网 传输 协议 进行 消 传递 ， 是 不 可 靠 的 。 在 过 程 调用 模式 
和 对 称 模 式 中 ， 进 程 交换 消息 对 。 每 个 消息 有 最 近 消息 事件 的 时 间 戳 : 发 送 和 接收 前 一 个 NTP 消 
息 的 本 地 时 间 ， 发 送 当 前 消息 的 本 地 时 间 。NTP 消 息 的 接收 者 记录 它 接收 消息 的 本 地 时 间 。 图 11-4 
给 出 了 在 服务 器 A 和 B 之 间 发 送 的 消息 m 和 m' 的 4 个 时 间 7 3 、7 。、T, ,和 7T;。 注 意 ， 在 对 称 模式 中 ， 
与 上 面 描述 的 Cristian 算 法 不 一 样 ， 在 一 个 消息 的 到 达 和 另 一 个 消息 的 发 送 之 间 会 存在 不 可 忽视 的 
延迟 。 而 且 ， 消 息 也 可 能 丢失 ， 但 是 由 每 个 消息 携带 的 3 个 时 间 惟 仍 是 有 效 的 。 
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图 11-4 一 对 NTP 服 务 器 之 间 的 消息 交换 


对 于 两 个 服务 器 之 间 发 送 的 每 对 消息 ， 由 NTP 计 算 偏 移 0, 和 延迟 d;。 偏 移 0; 是 对 两 个 时 钟 之 间 
实际 偏 移 的 一 个 估计 ， 延 迟 d 是 两 个 消息 整个 的 传输 时 间 。 如 果 B 上 时 钟 相对 于 A 的 真正 偏 移 是 o， 
而 m 和 m' 实 际 的 传输 时 间 分 别 是 :hr"， 那 么 我 们 有 : 

T, ,=T, ; +t +0 和 T; =T, | +1'~0o 
由 它 推出 : 
d=t+t'=T;— Tst+ T°-— TT 
以 及 
oO=o+( 人 一 D2， 其 中 o=(T ;一 Tis+T1 一 7T)/2 

利用 10z' 宇 0 的 事实 ， 有 oi 一 d/2 <o<o,+ di/2。 这 样 0; 是 偏 移 的 估计 ， 地 是 该 估计 的 精确 性 的 
一 个 度量 。 

NTP 服 务 器 对 于 连续 的 <o;，d;> 对 应 用 数据 过 滤 算 法 ， 用 于 估计 偏 移 o 并 计算 这 个 估计 的 质量 
(采用 称 为 过 滤 离 中 趋势 的 统计 值 形式 ) 。 若 过 滤 离 中 趋势 较 高 ， 则 表示 数据 相对 而 言 不 可 靠 。 保 
留 八 个 最 近 的 <o，d > 对 。 对 于 Cristian 的 算法 ， 选 择 对 应 于 最 小 值 4 的 o 的 值 用 于 估计 o。 

与 某 个 源 通信 得 到 的 偏 移 值 未 必用 于 控制 本 地 时 钟 。 通 常 ， 一 个 NTP 服 务 器 参与 几 个 对 等 方 
的 消息 交换 。 除 了 应 用 到 与 每 个 对 等 方 交 换 的 数据 过 滤 ，NTP 还 使 用 对 等 方 选择 算法 。 它 检查 从 
与 几 个 对 等 方 交换 中 获得 的 值 ， 查 找 相对 不 可 靠 的 值 。 这 个 算法 的 输出 使 服务 器 可 以 改变 它 主要 
用 于 同步 的 对 等 方 。 

层次 较 低 的 对 等 方 比 层次 较 大 的 对 等 方 更 受 欢迎 ， 因 为 它们 “更 接近 ” 主 时 间 源 。 具 有 最 低 
同步 离 中 趋势 的 对 等 方 也 比较 受 欢 迎 。 这 是 服务 器 和 同步 子 网 的 根 之 间 度 量 的 过 滤 离 中 趋势 之 和 。 
(对 等 方 在 消息 中 交换 同步 离 中 趋势 ， 这 样 就 可 以 计算 该 总 计 值 .) 

NTP 采 用 一 个 阶段 锁 循环 模型 [Mills 1995]， 它 按照 对 漂移 率 的 结果 修改 本 地 时 钟 的 更 新 频率 。 
举 一 个 简单 的 例子 ， 如 果 发 现 一 个 时 钟 总 是 以 固定 比例 走 快 ， 如 每 小 时 快 4s， 那 么 为 了 弥补 这 个 
问题 ， 可 稍微 降低 它 的 频率 (用 软件 或 硬件 )。 这 样 ， 时 钟 在 两 次 同步 间隔 中 的 漂移 会 减少 。 

Mills 提 到 ， 同 步 精 确 性 在 因特网 路 径 上 是 10ms 数 量 级 ， 在 LAN 上 是 1ms 数 量 级 。 
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11.4 逻辑 时 间 和 逻辑 时 钟 

从 单个 进程 的 角度 看 ， 事 件 可 唯一 地 按照 本 地 时 钟 显示 的 时 间 进 行 排序 。 但 Lamport[1978] 指 
出 ， 因 为 我 们 不 能 在 一 个 分 布 式 系统 上 完美 地 同步 时 钟 ， 因 此 通常 我 们 不 能 使 用 物理 时 间 指 出 在 
分 布 式 系统 中 发 生 的 任何 一 对 事件 的 顺序 。 ， 

通常 ， 我 们 使 用 类 似 物理 因果 关系 的 方案 ， 但 将 它 应 用 到 分 布 式 系统 是 为 了 给 发 生 在 不 同 进 
程 里 的 事件 排序 。 这 种 排序 是 基于 下 面 既 简单 又 直观 的 两 点 : 

。 如果 两 个 事件 发 生 在 同一 个 进程 P (i =1, 2…,N) 中 ,那么 它们 发 生 的 顺序 是 p 观 察 到 的 顺序 ， 

即 我 们 上 面 定 义 的 顺序 一 ,。 

* 当 消 息 在 不 同 进程 之 间 发 送 时 ， 发 送 消息 的 事件 在 接收 消息 的 事件 之 前 发 生 。 

Lamport 将 推广 这 两 种 关系 得 到 的 偏 序 称 为 发 生 在 先 关 系 。 有 了 时 它 也 称 为 因果 序 或 潜在 的 因 
果 序 。 

我 们 按 如 下 所 示 定 义 发 生 在 先 关系 (用 一 表示 ): 

HB1; 如 果 进程 p;，e 一 .e'"， 那 么 e 一 e'。 

HB2: 对 任 一 消息 m，send(m) 一 receive(m)， 其 中 send(m) 是 发 送 消息 的 事件 ， receive(m) 是 
接收 消息 的 事件 。 

HB3: 如 果 e、e' 和 e" 是 事件 ， 且 有 e 一 e' 和 e' 一 e"， 那 么 e 一 e"。 

由 此 ， 如 果 e 和 e' 是 事件 ， 且 e 一 e'， 那么 我 们 能 找到 在 一 个 或 多 个 进程 中 发 生 的 事件 e1/，e，,，.…， 
es 有 e 二 el!，e'=e,， 并 且 对 于 i= 1，2， 
N 一 1， 在 ej 和 和 e,, ,之 间 既 可 以 应 用 HB1 也 可 以 
应 用 HB2。 也 就 是 说 ,或 者 它们 在 同一 个 进 
程 中 连续 发 生 ， 或 存在 一 个 消息 m 使 得 e;= 
send(m)，ei, 1 二 receive (m)。 捉 件 e|，e,，…， 
e" 的 顺序 不 必 是 唯一 的 。 

图 11-5 中 的 3 个 进程 mm 、Pz 和 Ps 可 用 于 说 
明 关系 一 。 可 以 看 到 a 一 b， 因 为 在 进程 p; 中 图 11-5 发 生 在 三 个 进程 中 的 事件 
事件 按 这 个 顺序 发 生 (a 一 ,b)， 类 似 地 有 c 
*d。 进 一 步 有 2 一 c， 因 为 这 些 事件 是 发 送 和 接收 消息 mm ， 类 似 地 有 d 一 户 结合 这 些 关系 ， 我 们 可 
以 得 到 a 一 /。 

从 图 11-5 还 可 以 看 出 ， 并 不 是 所 有 的 事件 与 关系 一 相关 。 例 如 ，a 为 e 和 e 思 a， 因为 它们 发 生 
在 不 同 的 进程 中 ， 且 它们 之 间 没 有 消息 链 。 我 们 说 ， 像 a 和 e 这 样 不 能 由 一 排序 的 事件 是 并 发 的 ， 
写成 alle。 

关系 一 捕获 了 两 个 事件 之 闻 的 数据 流 。 但 是 要 注意 ， 原 则 上 数据 可 以 按 非 消 息 传递 的 方式 流 
动 。 例 如 ， 如 果 Smith 输 入 一 条 命令 让 进程 发 送 一 条 消息 ， 然 后 给 Jones 打 电话 ，Jones 让 自己 的 进 
程 发 另 一 条 消息 ， 那 么 第 一 条 消息 的 发 送 显 然 在 第 二 条 消息 之 前 发 生 。 但 是 ， 因 为 在 进程 之 间 没 
有 发 送 网 络 消 息 ， 我 们 不 能 在 系统 中 为 这 种 类 型 的 关系 建 模 。 

要 注意 的 另 一 点 是 ， 如 果 发 生 在 先 关系 在 两 个 事件 之 间 成 立 ， 那么 第 一 个 事件 可 能 引起 了 第 
二 个 事件 ， 也 可 能 并 未 引起 第 二 个 事件 。 例 如 ， 如 果 服 务 器 接收 一 个 请 求 消息 ， 后 来 发 送 了 一 个 
应 答 ， 那 么 很 显然 ， 应 答 的 传送 是 由 请 求 的 传送 引起 的 。 但 是 ， 关系 一 只 捕获 可 能 的 因果 关系 ， 
两 个 事件 即使 没有 真正 的 联系 ， 也 可 以 有 一 关系 。 例 如 ， 一 个 进程 可 能 收 到 一 个 消息 ， 后 来 又 发 
送 了 另 一 个 消息 ， 但 这 个 消息 是 每 五 分 钟 发 送 一 次 的 ， 与 第 一 个 消息 没有 特别 的 关系 。 这 里 ， 并 
没有 实际 的 因果 关系 ， 但 这 些 事件 可 以 用 关系 一 来 排序 。 

逻辑 时 钟 ”Lamport 发 明了 一 种 简单 的 机 制 ， 称 为 逻辑 时 钟 ， 它 可 数字 化 地 捕获 发 生 在 先 排序 。 


时 间 
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Lamport 逻 辑 时 钟 是 一 个 单调 增长 的 软件 计数 器 ， 它 的 值 与 任何 物理 时 钟 无 关 。 每 个 进程 忆 维护 它 
自己 的 逻辑 时 钟 L;， 进 程 用 它 给 事件 加 上 所 谓 的 Lamport 时 间 礁 。 我 们 用 Li(e) 表 示 只 的 事件 e 的 时 间 
帘 ， 用 L (e) 表 示 发 生 在 任 一 进程 中 的 事件 e 的 时 间 戳 。 
为 了 捕获 发 生 在 先 关系 一 ， 进 程 按 下 列 规则 修改 它们 的 逻辑 时 钟 ， 并 在 消息 中 传递 它们 的 逻 
辑 时 钟 值 : 
LC1: 在 进程 p, 发 出 每 个 事件 之 前 ， L 加 1: 
L:=L+l 
LC2: pe 在 m 中 附加 值 := 工 ;。 
(b) 在 接收 (mm，1) 时 ， 进 程 pj 计算 L :=max (L,, 1)， 然 后 在 给 receive(m) 事 件 打 时 间 戴 
时 应 用 LC1。 
尽管 上 面 时 钟 的 增 量 是 1， 但 我 们 可 以 选用 任何 正 数 。 通 过 在 与 事件 eE 和 e' 有 关 的 事件 序列 上 进 
行 长 度 归纳 ， 可 以 很 容易 地 看 到 : e 一 e' 一 L(e) < Le' )。 
注意 ， 相 反 的 情况 是 不 成 立 的 。 如 果 L(e) < L(e')， 我 们 不 能 推出 e 一 e'"。 图 11-6 给 出 了 对 图 11-5 
中 给 出 的 例子 使 用 逻辑 时 钟 的 结果 。 进 程 p1、 1 2 
Pz 和 p;3 都 有 各 自 的 逻辑 时 钟 ， 初 始 值 为 0。 时 7 
钟 值 紧 邻 着 事件 给 出 。 注 意 ， 例 如 ，L(b) > 3 


Z(e) 但 plle。 Pa - 时 间 
不 同 的 事件 对 会 有 用 数字 值 表示 的 Lamport 时  _p， 


间 蕉 。 然 而 ， 我 们 能 通过 考虑 发 生 事 件 的 进 7 

程 的 标识 符 来 创建 事件 的 全 序 ， 即 对 所 有 的 图 11-6 图 11-5 中 的 事件 的 Lamport 叶 间 蕉 
事件 对 排序 。 如 果 e 是 在 p, 中 发 生 的 事件 ， 本 

地 时 间 葵 为， 而 e 是 在 p 发 生 的 事件 ， 本 地 时 间 发 为了， 我 们 为 这 些 事件 分 别 定义 全 局 罗 辑 时 间 蕉 
(T, i) 和 (T, 让)。 当 且 仅 当 T, < 工 或 = 了 以 及 i<j 时 定义 〈T, i) < (T, j)。 这 种 排序 没有 通常 的 
物理 意义 (因为 进程 标识 符 是 随机 的 )， 但 它 有 时 有 用 。 例 如 ，Lamport 用 它 在 个 临界 区 给 进程 
排序 。 

向 量 时 钟 ”Mattern[1989] 和 Fidge[1991] 开 发 了 向 量 时 钟 用 以 克服 Lamport 时 钟 的 缺点 ， 我 们 从 
L(e) < L(e') 不 能 推出 ee'。 有 N 个 进程 的 系统 的 向 量 时 钟 是 N 个 整数 的 一 个 数组 。 每 个 进程 维护 它 
自己 的 向 量 时 钟 V,， 用 于 给 本 地 事件 加 时 间 蕉 。 与 Lamport 时 间 玲 类 似 ， 进 程 在 发 送 给 对 方 的 消息 
上 附加 向 量 时 间 瞧 ， 更 新 时 钟 的 规则 如 下 ; 

VC1: 初始 情况 下 ,，V.[j] =0, jj=1,2,.,N 

VC2: 在 p 给 事件 加 时 间 蕉 之 前 ， 设 置 V.[i] := V[i] + 1。 

VC3: p, 在 它 发 送 的 每 个 消息 中 包括 值 : = 

VC4: 当 p, 搂 收 到 消息 中 的 时 间 蕉 ! 时 ， 设 置 V [ := max(V 7 [jj = 1, 2, …,N。 这 种 取 
两 个 向 量 时 间 惟 的 最 大 值 的 操作 称 为 合并 操作 。 

对 向 量 时 钟 风 ，VI 是 P, 已 经 附加 时 间 惟 的 事件 的 个 数 ，VI] (jz#i) 是 在 P 中 发 生 的 可 能 会 影 
响 p 的 事件 的 个 数 〔 在 这 一 时 刻 ， 进 程 p, 可 能 给 多 个 事件 加 时 间 改 ， 但 至 今 没 有 信息 流向 p ) 。 

我 们 用 下 列 方法 比较 向 量 时 间 惟 ; 

V=V" ff V[j] = V'D] (j=1, 2,1……,N) 

VeV'iff VV'D) (=1, 2, 1…,N) 

V<V'iff VEV'IAVzV' 

设 V(e) 是 发 生 e 的 进程 所 应 用 的 向 量 时 间 稚 。 通 过 在 与 事件 ce 和 e' 相 关 的 事件 序列 的 长 度 上 进行 
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归纳 ， 可 以 看 到 e 一 e' 一 We) < We' )。 练 习 10.13 将 要 读者 证 明 : 如 果 V(e) < We)， 那 么 e 一 e 。 

图 11-7 给 出 了 图 11-5 中 的 事件 的 向 量 时 间 蕉 。 从 图 上 可 以 看 到 ，V(a) < 的 方 ， 这 反映 了 a 一 / 
的 事实 。 类 似 地 ， 通 过 比较 时 间 改 ， 我 们 能 区 分 何 时 两 个 事件 是 并 发 的 。 例 如 ， 从 Woc) 和 Ye 和 
V(e)<V(c) 均 不 成 立 的 事实 可 推出 clle。 

与 Lamport 时 间 惟 相 比 ， 向 量 时 间 戳 的 
不 足 在 于 占用 的 存储 以 及 消息 的 有 效 负载 与 
进程 数 N 成 正比 。Charron-Bost[1991] 证 明 ， 
如 果 我 们 能 通过 观察 时 间 截 来 区 分 两 个 事件 
是 否 并 发 ， 那 么 就 不 可 避免 地 用 到 N 维 向 量 。 
但 是 ， 想 以 重 构 完整 向 量 为 代价 来 存储 和 传 
送 更 少量 数据 ， 这 种 技术 是 存在 的 。Raynal 图 11-7 图 11-5 中 的 事件 的 向 量 时 间 蕉 
和 Singhal[1996] 对 其 中 一 些 技 术 进 行 了 介绍 。 
他 们 还 描述 了 算 阵 时 钟 (matrix clock) 的 概念 ， 进 程 凭借 它 保 持 自己 和 其 他 进程 的 向 量 时 间 。 


11.5 全 局 状态 


本 节 和 下 一 节 将 研究 查找 分 布 式 系统 中 的 一 个 性 质 在 系统 执行 时 是 否 成 立 的 问题 。 我 们 从 分 
布 式 无 用 单元 收集 、 死 锁 检 测 、 终 止 检 和 测 和 


Pi Pp2 
调试 的 例子 开始 。 四 四 
分 布 式 无 用 单元 收集 : 如 果 在 分 布 式 系 + 和 


统 中 不 再 对 某 个 对 象 进行 任何 引用 ， 那 么 该 一 
a) 无 用 单元 收集 对象 
对 象 被 认为 是 无 用 的 。 一 旦 认为 对 象 是 无 用 ™ 


{1,0,0) (2,0,0) 





的 ， 那 么 就 要 回收 它 所 占据 的 内 存 。 为 了 检 ” 等 人 N 
查 一 个 对 象 是 否 是 无 用 的 ， 我 们 必须 验证 系 等 德 _ 

统 中 对 它 没有 任何 引用 。 在 图 11-8a 中 ， 进 程 本 

P1 有 了 两 个 对 象 ， 它 们 都 有 引用 一 一 个 引用 ， 
在 进程 p1 内 部 ， 而 进程 p2 引 用 了 另 一 个 对 象 。 全 
进程 2 有 一 个 无 用 对 象 ， 在 系统 中 没有 对 它 

的 引用 。 还 有 一 个 对 象 ，p1 和 p2 都 没有 引用 中 终止 

它 ， 但 在 进程 之 间 的 暂 态 消息 中 对 它 进 行 了 图 11-8 检测 全 局 性 质 


引用 。 这 说 明 ， 当 我 们 考虑 系统 的 性 质 时 ， 
我 们 必须 包括 信道 的 状态 和 进程 的 状态 。 

分 布 式 死 锁 检 测 : 当 一 组 进程 中 的 每 一 个 进程 都 在 等 待 另 一 个 进程 给 它 发 送 消息 ， 并 且 在 这 
种 “等 待 ”关系 图 中 存在 循环 时 ， 就 会 发 生 分 布 式 死 锁 。 在 图 11-8b 中 ， 进 程 p1 和 p2 都 在 等 待 对 方 
的 消息 ， 所 以 这 个 系统 不 会 有 任何 进展 。 

分 布 式 终止 检测 : 这 里 的 问题 是 检测 一 个 分 布 式 算 法 是 否 终 止 。 检 测 终止 是 一 个 听 起 来 很 容 
易 解决 的 问题 : 看 起 来 只 要 测试 每 个 进程 是 否 都 已 经 停止 而 已 。 为 了 说 明 问 题 并 不 是 这 么 简单 ， 
考虑 由 进程 Pp1 和 p2 执 行 的 一 个 分 布 式 算法 ， 每 个 进程 都 会 请 求 另 一 个 进程 的 值 。 我 们 能 确定 在 一 
个 瞬间 进程 是 主动 的 还 是 被 动 的 一 一 一 个 被 动 的 进程 没有 参与 它 自己 的 任何 活动 但 准备 回应 另 一 
个 进程 请 求 的 值 。 假 设 我 们 发 现 p1 是 被 动 的 ，p2 是 被 动 的 (如 图 11-8c 所 示 )。 | 

为 了 说 明 我 们 不 能 推断 算法 已 经 终止 ， 考 虑 下 列 情形 ， 当 我 们 测试 pl 的 被 动 性 时 ， 一 个 消息 
在 从 p2 向 pl 传送 ，p2 在 发 出 该 消息 后 马上 变 成 被 动 的 。p1 接 收 消 息 后 ， 我 们 发 现 它 又 从 被 动 变 成 
主动 。 因 此 算法 不 能 被 终止。 

终止 和 死 锁 的 现象 在 某 些 方面 比较 类 似 ， 但 它们 是 不 同 的 问题 。 首 先 ， 死 销 只 影响 系统 中 的 





肝 间 和 会 局 状态 287 








进程 子 集 ， 而 所 有 进程 必须 终止 。 其 次 ， 进 程 被 动 性 与 死 锁 循环 中 的 等 待 不 一 样 : 死 锁 进程 试图 
执行 进一步 的 动作 ， 该 动作 是 另 一 个 进程 等 待 的 ， 一 个 被 动 进程 不 参与 任何 话 动 。 
分 布 式 调试 : 分 布 式 系统 的 调试 非常 复杂 [Bonnaire et al. 1995]。 要 非常 仔细 才能 确定 系统 执 
行 过 程 中 发 生 了 什么 。 例 如 ， 在 Smith 写 的 应 用 中 ， 每 个 进程 pj, 包含 一 个 变量 x, (i =1, 2, …, N)。 变 
量 随 程 序 执行 的 进行 而 改变 ， 但 它们 被 要 求 相互 之 间 的 差 值 在 一 个 6 值 范 围 内 。 但 是 ， 程 序 中 有 一 
个 缺陷 ，Smith 怀 疑 在 某 种 情况 下 对 某 些 i 和 j 有 Ix, 一 元 1>56， 从 而 破坏 了 一 致 性 限制 。 这 里 的 问题 是 
在 变量 值 变化 的 同时 要 计算 这 种 关系 。 
上 述 的 每 个 问题 都 有 适合 的 解决 方案 ， 但 它们 都 说 明了 观察 全 局 状态 的 必要 ， 所 以 有 必要 开 
发 -- 个 通用 的 方案 。 
11.5.1 全 局 状态 和 一 致 割 集 
从 原理 上 说 ， 观 察 单个 进程 的 连续 状态 是 可 能 的 ， 但 查 明 系 统 的 全 局 状态 问题 一 一 进程 集 的 
状态 一 一 是 非常 困难 的 。 
本 质 的 问题 是 缺乏 全 局 时 间 。 如 果 所 有 进程 都 有 完全 同步 的 时 钟 ， 那么 我 们 可 以 在 回 一 时 间 
让 每 个 进程 记录 下 它 的 状态 一 一 结果 就 是 系统 实际 的 全 局 状态 。 从 进程 状态 集中 我 们 可 以 判断 进 
程 是 否 发 生死 锁 等 。 但 我 们 不 能 获得 完美 的 时 钟 同步 ， 所 以 这 个 方法 不 适用 。 
我 们 可 能 会 问 : 利用 不 同时 间 记 录 的 本 地 状态 能 否 得 出 -- 个 有 意义 的 全 局 状态 ?答案 是 在 满 
足 一 定 条 件 时 可 以 ， 为 了 说 明 这 一 点 ， 我 们 先 引入 一 些 定义 。 
回 到 有 N 个 进程 p; (i = 1, 2, …, NN) 的 一 般 系 统 P 中 ， 我 们 将 研究 它 的 执行 过 程 。 在 上 面 说 过 ， 在 
每 个 进程 中 发 生 了 一 系列 事件 ， 我 们 可 以 通过 每 个 进程 的 历史 来 描述 每 个 进程 的 执行 过 程 ， 
history (Pi) = h; = <e', el e2， > 
类 似 地 ， 我 们 可 以 考虑 进程 历史 的 任何 一 个 有 限 前 绥 ， 
hi= <e0 el, py et> 
每 个 事件 或 是 进程 的 内 部 动作 (例如 ， 更 新 一 个 变量 ) 或 是 在 与 进程 相连 的 信道 上 发 送 或 接 
收 一 个 消息 。 
原则 上 ， 我 们 能 记录 在 P 执 行 时 发 生 的 一 切 。 每 个 进程 能 记录 本 进程 发 生 的 事件 ， 以 及 它 经 过 
的 连续 状态 。 我 们 用 ss 表示 进程 p, 在 第 个 事件 发 生 之 前 的 状态 ， 所 以 si 是 p 的 初始 状态 。 我们 注意 到 ， 
在 上 面 的 例子 中 ， 信 道 的 状态 有 时 是 相关 的 。 我 们 不 引入 新 的 状态 类 型 ， 而 是 让 进程 记录 所 有 消息 
的 发 送 或 接收 作为 状态 的 一 部 分 。 如 果 我 们 发 现 进程 P 已 经 记录 它 发 送 了 消息 m 到 进程 P (i xj )， 那 
么 通过 检查 p, 是 否 接 收 到 该 消息 ， 我 们 就 能 推断 出 m 是 否 是 p; 和 p, 之 间 信 道 状态 的 一 部 分 。 
通过 取 单个 进程 历史 的 并 集 ， 我 们 可 以 得 到 PP 的 会 局 历史 ，: 
H=hUh UU Uh , 
数学 上 ， 我 们 可 以 取 单 个 进程 状态 的 任 一 集合 来 形成 一 个 全 局 状态 8 = (5， 52,，…, Sn)。 但 是 哪 
个 全 局 状态 是 有 意义 的 ， 也 就 是 说 ， 哪 些 进 程 状态 能 同时 发 生 ? 一 个 全 局 状态 相当 于 单个 进程 历 
史 的 初始 前 绥 。 系 统 执行 的 害 集 是 系统 全 局 历史 的 子 集 ， 是 进程 历史 前 绥 的 并 集 
C=h" Uh UUAe 
在 对 应 于 割 集 C 的 全 局 状态 5 中 的 状态 s; 是 在 由 p, 处 理 的 最 后 一 个 事件 即 esi(i = 1, 2, …， N) 之 后 
的 p; 的 状态 。 事 件 集 {ei:i= 1,2,…,N} 称 为 制 集 的 边界 。 
考虑 图 11-9 中 给 出 的 在 进程 p, 和 ps 中 发 生 的 事件 。 该 图 给 出 了 两 个 割 集 ， 一 个 割 集 的 边界 是 
<e"，e%>， 另 一 个 制 集 的 边界 是 <e*|，e”>。 最 左 荐 集 是 不 一 致 的 。 这 是 因为 在 p; 中 性 包 含 了 对 消 
息 m 的 接收 ， 但 在 pi 中 它 不 包含 对 该 消息 的 发 送 。 这 是 一 个 没有 “原因 ”的 “结果 ”。 实际 的 执行 
不 会 处 于 该 制 集 边界 所 对 应 的 全 局 状态 。 原 则 上 ， 我 们 通过 检查 事件 之 间 的 一 关系 可 获得 这 一 点 。 


上 
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相反 ,最 右 割 集 是 一 致 的 。 它 包括 消息 的 ml 的 发 送 和 接收 。 它 也 包括 m2 的 发 送 但 不 包括 m2 的 接收 。 
这 与 实际 执行 相 一 致 一 一 毕竟 ， 消 息 要 花 一 些 时 间 才 能 到 达 。 


0 
eI 


物理 时 间 





不 一 致 的 割 集 
- 致 的 割 集 


图 11-9 割 集 


割 集 C 是 一 致 的 ， 条 件 是 对 它 包含 的 每 个 事件 ， 它 也 包含 了 所 有 在 该 事件 之 前 发 生 的 所 有 事 

件 ， 即 
对 于 所 有 事件 ee C,f 一 e 二 /EC 

一 致 的 全 局 状态 是 指 对 应 于 一 致 制 集 的 状态 。 我 们 可 以 把 一 个 分 布 式 系 统 的 执行 描述 成 在 系 

统 全 局 状态 之 间 的 一 系列 转换 : 
So 一 咏 一 9 一 

在 每 个 转换 中 ， 正 好 一 个 事件 在 系统 的 一 个 进程 中 发 生 。 这 个 事件 或 是 发 送 消息 ， 或 是 接收 消 
息 ， 也 可 以 是 一 个 外 部 事件 。 如 果 两 个 事件 同时 发 生 ， 我 们 可 以 认为 它们 按 一 定 的 顺序 发 生 一 一 按 
照 进 程 标识 符 排序 (同时 发 生 的 事件 必须 是 并 发 的 ， 不 是 一 个 在 另 一 个 之 前 发 生 ) 。 系 统 通过 一 至 
全 局 状态 以 这 种 方式 逐步 发 展 。 

“走向 ”(run) 是 全 局 历史 中 所 有 事件 的 全 序 ， 并 且 它 与 每 个 本 地 历史 排序 一 (i = 1, 2, …,N) 
是 一 致 的 。 线 性 化 走向 或 一 致 的 走向 是 全 局 历史 中 所 有 事件 的 全 序 ， 并 且 与 H 上 的 发 生 在 先 关系 是 
一 致 的 。 注 意 ， 线 性 化 走向 也 是 一 个 走向 。 

不 是 所 有 的 走向 都 经 历 一 致 的 全 局 状态 ， 但 所 有 线性 化 走向 只 经 历 一 致 的 全 局 状态 。 如 果 有 
一 个 经 过 S 和 3 的 线性 化 走向 ， 我 们 说 状态 8 是 从 状态 8 可 达 的 。 

有 时 ， 我 们 可 以 在 一 个 线性 化 走向 中 变换 并 发 事件 的 排序 ， 得 到 的 走向 仍 是 经 历 一 致 全 局 状 
态 的 走向 。 例 如 ， 如 果 线 性 化 走向 中 两 个 连续 的 事件 是 由 两 个 进程 接收 消息 ， 那 么 我 们 可 以 交换 
这 两 个 事件 的 顺序 。 


11.5.2 全 局 状态 谓词 、 稳 定性 、 安 全 性 和 活性 

检测 像 死 锁 和 终止 之 类 的 条 件 实际 上 是 求 一 个 全 局 状态 谓词 的 值 。 全 局 状态 谓词 是 一 个 从 系 
统 P 的 进程 全 局 状态 集 映 射 到 {True, False} 的 函数 。 与 对 象 成 为 无 用 、 系 统 死 锁 、 系 统 终止 的 状态 
相关 的 谓词 的 一 个 特征 是 这 些 谓词 都 是 稳定 的 一 旦 系统 进入 谓词 值 为 True 的 状态 ， 它 将 在 所 有 
可 从 该 状态 可 达 的 状态 中 一 直 保 持 True。 相 反 ， 当 我 们 监控 或 调试 一 个 应 用 程序 时 ， 我 们 通常 对 
不 稳定 谓词 感 兴趣 ， 如 在 前 面 的 例子 中 ， 变 量 的 差别 是 受 限 的 。 即 使 应 用 程序 到 达 了 受 限 范围 内 
的 一 个 状态 ， 它 也 不 必 停 留 在 这 个 状态 。 

我 们 还 注意 到 ， 与 全 局 状态 谓词 有 关 的 两 个 概念 ， 安 全 性 和 活性 。 假 设 有 一 个 不 希望 有 的 性 
质 c， 该 性 质 是 一 个 系统 全 局 状态 的 谓词 一 一 例如 ，a 可 以 是 成 为 死 锁 的 性 质 。 设 9 是 系统 的 原始 
状态 。 关 于 ao 的 安全 性 是 一 个 断言 ， 即 对 所 有 可 从 So 到 达 的 所 有 状态 $S，a 的 值 为 False。 相 反 ， 设 有 
是 系统 全 局 状态 希望 有 的 性 质 一 一 例如 ， 到 达 终止 的 性 质 。 关 于 有 的 活性 是 对 于 任 一 从 状态 9 开始 
的 线性 化 走向 L， 对 可 从 56 到 达 的 状态 5,，B 的 值 为 True。 
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11.5.3 Chandy 和 Lamport 的 “快照 ”算法 
Chandy 和 Lamport[1985] 描 述 了 决定 分 布 式 系统 全 局 状态 的 “快照 ”算法 。 该 算法 的 目的 是 记 
录 进 程 集 p;(i = 1, 2, …, 入 ) 的 进程 状态 和 通道 状态 集 (“快照 ”)。 这 样 ， 即 使 所 记录 的 状态 组 合 可 能 
从 没有 在 同一 时 间 发 生 ， 但 所 记录 的 全 局 状态 还 是 一 致 的 。 
我 们 将 看 到 ， 快 照 算 法 记录 的 状态 能 很 方便 地 用 于 求 稳定 的 全 局 谓词 的 值 。 
算法 在 进程 本 地 记录 状态 ， 它 没有 给 出 在 一 个 场地 收集 全 局 状态 的 方法 。 收 集 状 态 的 一 个 简 
单方 法 是 让 所 有 进程 把 它们 记录 的 状态 发 送 到 一 个 指定 的 收集 进程 ， 但 我 们 这 里 不 对 这 个 问题 做 
进一步 讨论 。 
算法 有 如 下 假设 : 
* 不论 是 通道 还 是 进程 都 不 出 现 故 障 。 通 信和 是 可 靠 的 ， 因 此 每 个 发 送 的 消息 最 终 被 完整 地 接收 
一 次 。 
。 通 道 是 单 向 的 ， 提 供 FIFO 顺 序 的 消息 传递 。 
。 描 述 进 程 和 通道 的 图 是 强 连 接 的 (任意 两 个 进程 之 间 有 一 条 路 径 )。 
。 任 一 进程 可 在 任 一 时 间 开 始 一 个 全 局 快照 。 
， 在 拍 快照 时 ， 进 程 可 以 继续 它们 的 执行 ， 并 发 送 和 接收 消息 。 
对 每 个 进程 PP， 设 接 入 通道 是 其 他 进程 向 P 发 送 消 息 的 通道 。 类 似 地 ，p, 的 外 出 通道 是 p, 向 其 
他 进程 发 送 消息 的 通道 。 算 法 的 基本 思想 如 下 : 每 个 进程 记录 它 的 状态 ， 对 每 个 接 人 通道 还 记录 
发 送 给 它 的 消息 。 对 每 个 通道 ， 进 程 记录 在 它 自己 记录 下 状态 之 后 和 在 发 送 方 记录 下 它 自己 状态 
之 前 到 达 的 任何 消息 。 这 种 安排 可 以 记录 不 同时 间 的 进程 状态 并 且 能 用 已 传送 但 还 没有 接收 到 的 
消息 说 明 进 程 状态 之 间 的 差别 。 如 果 进 程 p; 已 经 向 进程 pj 发 送 了 消息 m， 但 p, 还 没有 接收 到 ， 那 么 
Pi 属于 它们 之 间 通 道 的 状态 。 
算法 使 用 了 特殊 的 标记 消息 ， 它 与 进程 发 送 的 其 他 消息 不 一 样 ， 它 可 在 正常 执行 中 发 送 和 接 
收 。 标 记 有 双重 作用 : 如果 接收 者 还 没有 保存 自己 的 状态 ， 那 么 标记 作为 提示 ; 作为 一 种 决定 哪 
个 消息 包括 在 通道 状态 中 的 手段 。 
算法 定义 了 两 个 规则 : 标记 接收 规则 和 标记 发 送 规 则 (如 图 11-10 所 示 )。 标 记 接 收 规则 强制 
进程 在 记录 下 自己 的 状态 之 后 但 在 它们 发 送 其 他 消息 之 前 发 送 一 个 标记 。 
进程 p; 的 标记 接收 规则 
已 接收 通道 c 上 的 标记 请 息 ， 
if (Pi 还 没有 记录 它 的 状态 ) 
Pi 记录 它 的 进程 状态 ， 
将 c 的 状态 记 成 空 集 ， 
并 始 记 寺 从 其 他 接 入 通道 上 到 达 的 消息 


else 


忆 把 c 的 状态 记录 到 从 保留 它 的 状态 以 来 它 在 c 上 接收 到 的 消息 集合 中 
end if 





进程 疡 的 标记 发 送 规则 
在 pi 记录 了 它 的 状态 之 后 ， 对 每 个 外 出 通道 c: 
(在 p, 从 c 上 发 送 任何 其 他 消息 之 前 ) 








Pi: 化 Cc 上 发 送 个 标记 消息 





图 11-10 Chandy 和 Lamport 的 “快照 ”算法 
标记 接收 规则 强制 没有 记录 状态 的 进程 去 记录 状态 。 在 这 种 情况 下 ， 这 是 进程 接收 到 的 头 一 
个 标记 。 它 记录 在 其 他 接 入 通道 上 后 来 收 到 了 哪个 消息 。 当 一 个 已 保存 状态 的 进程 接收 到 一 个 
(在 另 一 个 通道 上 的 ) 标记 ， 它 就 把 那个 通道 的 状态 记录 下 来 ， 作 为 从 它 保留 它 的 状态 以 来 所 接收 
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到 的 消息 集 。 

任何 进程 可 以 在 任何 时 候 开 始 这 个 算法 。 进 程 好 像 已 接收 到 一 个 〈 在 一 个 不 存在 的 通道 上 的 ) 
标记 ， 并 遵循 标记 接收 规则 。 这 样 ， 进 程 记录 它 的 状态 并 开始 记录 在 所 有 接 入 通道 上 到 达 的 消息 。 
几 个 进程 可 以 以 这 种 方式 并 发 地 开始 记录 (只 要 能 区 别 它们 使 用 的 标记 )。 


我 们 用 一 个 系统 来 说 明 这 个 算法 ， 这 个 系统 - 
有 两 个 进程 p, 和 p,， 它 们 通过 两 个 单 向 通道 ,和 ec， (= “() 
相连 。 两 个 进程 进行 “窗口 部 件 ”交易 。 进 程 p， 2 





通过 c2 向 p 发 送 窗口 部 件 的 订单 ， 并 以 每 个 窗口 
部 件 10 美 元 附 上 货款 。 一 段 时 间 以 后 ， 进 程 p 沿 本 多时 必 吕 
通道 c1 向 p 1 发 送 窗口 部 件 。 进 程 的 初始 状态 如 图 
11-11 所 示 。 进 程 p 已 经 接收 到 5 个 窗口 部 件 的 订 图 11-11 两 个 进程 和 它们 的 初始 状态 


单 ， 它 将 马上 分 发 给 pi。 

图 11-12 给 出 了 系统 的 执行 过 程 并 记录 系统 的 状态 。 进 程 p, 在 实际 的 全 局 状态 5o 中 记录 它 的 状 
态 ， 当 时 pp 的 状态 是 <$1000,0>。 根 据 标记 发 送 规则 ， 进 程 p, 在 它 通过 通道 c; 发 送 下 一 个 应 用 层 消 息 
(Order 10, $100) 之 前 ， 在 它 的 外 出 通道 ce。 上 发 送 一 个 标记 消息 。 系 统 进入 实际 的 全 局 状态 51。 


局 状态 
上 全 局 状态 5 <$1000,0> Co) ca ( 空 ) (0 ) 502000 


cl ( 空 ) 


= 于 人 太 - 一 
2 全 局 状态 5 <$900.0> 人) c，( 订 单 10, $100). M (Cm) 502000> 
一 


ci ( 空 ) 


3. 个 局 状态 5， 一 
全 局 状态 宁 <$900,0> c， (订单 10, $100), M Cp) -so 
7 


c1 (五 个 窗口 部 件 ) 


4. 全 局 状态 5， 一 一 一 一 
全 局 状态 <so00s> (7 ) c (订单 10, $100) C0) ss0199> 
二 一 


a ( 空 ) 








(M= 标 记 消 息 ) 
图 11-12 图 11-11 中 进程 的 执行 


在 Pp 接收 到 标记 之 前 ， 它 通过 cc 发 出 一 个 应 用 消息 (5 个 窗口 部 件 ) 以 响应 p, 以 前 的 订单 ， 产 
生 新 的 实际 全 局 状态 5,。 

现在 ， 进 程 p, 接 收 到 p; 的 消息 (5 个 窗口 部 件 )，p; 接 收 到 标记 。 根 据 标记 接收 规则 ，p; 将 它 的 
状态 记录 成 <$50 1995>， 将 通道 c: 的 状态 记录 成 空 序列 。 根 据 标记 发 送 规则 ， 它 通过 c; 发 送 标记 
消息 。 

当 进 程 p ,接收 到 p; 的 标记 消息 时 ， 它 将 通道 ,的 状态 记录 成 在 它 第 一 次 记录 它 的 状态 之 后 接收 
到 的 那个 消息 (5 个 窗口 部 件 )。 最 后 实际 的 全 局 状态 是 5;。 

最 后 记录 的 状态 是 p: < $1000,0>; p,: <$50,1995>; cj: < (5 个 窗口 部 件 ) >; cy: < >。 注意， 
这 个 状态 与 系统 实际 经 过 的 所 有 全 局 状态 不 同 。 

快照 算法 的 终止 ”我 们 假设 一 个 已 经 接收 到 一 个 标记 消息 的 进程 在 有 限 的 时 间 里 记录 了 它 的 
状态 ,并 在 有 限 的 时 间 里 通过 每 个 外 出 通道 发 送 了 标记 消息 〈 即 使 它 不 再 需要 在 这 些 通道 上 发 送 
应 用 消息 )。 如 果 有 一 条 从 进程 p, 到 进程 p:,(j x i) 的 信道 和 进程 的 路 径 ， 那 么 可 假设 ， 在 pj 记录 它 
的 状态 之 后 的 有 限时 间 里 p, 将 记录 它 的 状态 。 因 为 我 们 假设 进程 和 通道 图 是 强 连 接 的 ， 所 以 在 一 些 
进程 记录 它 的 初始 状态 之 后 的 有 限时 间 内 ， 所 有 的 进程 将 记录 它们 的 状态 和 接 入 通道 的 状态 。 


刻画 所 观察 到 的 状态 ”快照 算法 从 执行 的 历史 中 选择 了 一 个 割 集 。 因 此 ， 割 集 与 该 算法 记录 
的 状态 是 一 致 的 。 为 了 说 明 这 一 点 , 设 e; 和 ej 分 别 是 在 p; 和 pj 中 发 生 的 事件 ， 且 有 e; 一 e。 我 们 断言 ， 
如 果 ej 在 割 集 中 ， 那 么 e 也 在 割 集 中 。 也 就 是 说 ， 如 果 e) 在 pj 记录 它 的 状态 之 前 发 生 ， 那 么 e, 必 须 在 
Pi 记录 它 的 状态 之 前 发 生 。 如 果 两 个 进程 是 相同 的 ， 那 么 这 一 点 非常 明显 ， 所 以 我 们 假设 i # i。 假 
设 目前 我 们 要 证 明 的 是 : 在 e/ 发 生 之 前 pj 记录 了 它 的 状态 。 考 虑 HBH 个 消息 序列 mi, mo,…, ma(H> 1)， 
有 关系 ei 一 ej;。 通 过 在 传递 这 些 消息 的 通道 上 进行 FIFO 排 序 ， 以 及 标记 发 送 和 接收 规则 ， 一 个 标记 
消息 将 在 每 个 mi, mo, …, mw 之 前 到 达 p)。 根 据 标记 接收 规则 ，p; 将 在 事件 ej 之 前 记录 它 的 状态 。 这 
与 我 们 e 在 割 集中 的 假设 相 矛 盾 ， 所 以 得 证 。 

我 们 将 在 根据 算法 运行 时 所 观察 到 的 全 局 状态 与 初始 和 最 后 的 全 局 状态 之 间 建 立 可 达 关 系 。 
设 Sys=eo e, … 是 系统 执行 时 的 线性 化 走向 〈 若 两 个 事件 同时 发 生 ， 我 们 将 按照 进程 标识 符 给 它 
们 排序 )。 设 Sm 是 在 第 一 个 进程 记录 它 的 状态 之 前 的 全 局 状态 ，Sms 是 在 快照 算法 终止 (最 后 一 个 
状态 记录 动作 之 后 ) 的 全 局 状态 ，Swo 是 所 记录 的 全 局 状态 。 

我 们 将 找到 Sys 的 一 个 排列 ，Sys' = eo e', e's,…， 使 得 三 个 状态 Si 、Sjwat 、Sww 都 在 Sys' 中 发 


生 ? ye 从 Sys' 中 的 Sr 处 到 达 ? Sjinal 可 从 实际 执行 eo， (A Pha 
Sys' 中 的 5%ap 处 到 达 。 图 11-13 给 出 了 这 种 情 Pe 
况 ， 上 面 的 线性 化 走向 是 Sys， 下 面 的 线性 化 ws 记录 pe 人 ， 
走向 是 Sys'。 开始 结束 
我 们 首先 通过 把 5ys 中 的 所 有 事件 分 成 快 i 


照 前 事件 或 快照 后 事件 ， 从 Sys 得 到 Sys'。 进 
程 p, 的 快照 前 事件 是 在 进程 p, 记 录 它 的 状态 之 i 
前 发 生 的 事件 ， 其 他 事件 是 快照 后 事件 ， 如 图 11-13 在 快照 算法 中 状态 之 间 的 可 达 性 
果 事 件 在 不 同 的 进程 中 发 生 ， 那 么 在 Sys 中 快照 后 事件 可 以 在 快照 前 事件 之 前 发 生 ， 理 解 这 一 点 是 
很 重要 的 〈 当 然 ， 在 同一 进程 中 ， 快 照 前 事件 之 前 不 可 能 发 生 快 照 后 事件 ) 。 

我 们 将 给 出 在 快照 后 事件 之 前 给 快照 前 事件 排序 的 方法 以 获得 8ys'。 假 设 e 是 一 个 进程 的 快照 
后 事件 ， 而 ej,, 是 另 一 个 进程 的 快照 前 事件 。 不 能 得 到 ej 一 ej,,。 这 两 个 事件 可 能 分 别 是 一 个 消息 的 
发 送 和 接收 。 标 记 消 息 必须 在 消息 之 前 ， 使 得 消息 的 接收 是 一 个 快照 后 事件 ， 但 根据 假设 ，e,,, 是 
一 个 快照 前 事件 。 因 此 我 们 可 以 在 不 违反 发 生 在 先 关系 的 前 提 下 交换 两 个 事件 (也 就 是 说 ,事件 
的 结果 序列 仍然 是 一 个 线性 化 走向 ) 。 交 换 并 不 引入 新 的 进程 状态 ， 因 为 我 们 没有 改变 任何 单个 进 
程 发 生 的 事件 的 顺序 。 

我 们 继续 以 这 种 方式 交换 相 邻 事件 对 ， 直 到 在 Sys' 执 行 结果 中 ， 所 有 快照 前 事件 e', e', e',,…， 
eR ' 排 列 在 所 有 快照 后 事件 e's ,es ,et2… 之 前 。 对 每 个 进程 ， 在 本 weB ye ,中 的 该 进程 发 
生 的 事件 集 正 好 是 它 在 记录 它 的 状态 之 前 经 历 的 事件 集 。 因 此 ， 在 那 一 时 刻 每 个 进程 的 状态 和 信 
道 的 状态 就 是 算法 记录 的 全 局 状态 5,,。,。 我们 不 干扰 线性 化 走向 开始 和 结束 的 状态 5 和 Sjnar。 这 样 ， 
我 们 就 建立 了 可 达 关 系 。 

所 观察 到 的 状态 的 稳定 性 和 可 达 关 系 ”快照 算法 的 可 达 性 质 对 检测 稳定 谓词 非常 有 用 。 通 常 ， 
在 状态 Swo 中 成 为 True 的 任何 不 稳定 谓词 在 记录 全 局 状态 的 实际 执行 中 可 以 是 True， 也 可 以 不 是 
True。 但 是 ， 如 果 在 Svwo 状 态 中 稳定 谓词 为 True， 那 么 我 们 可 以 肯定 在 Smww 状 态 中 谓词 是 True。 因 
为 由 定义 可 知 ， 一 个 状态 3 为 True 的 稳定 谓词 在 从 8 可 达 的 任 一 状态 都 是 True。 类 似 地 ， 如 果 对 于 
Swop 状 态 谓词 为 False， 那 么 在 Sw 状 态 ， 该 谓词 也 一 定 是 False。 


11.6 分 布 式 调试 
我 们 现在 研究 记录 系统 全 局 状态 的 问题 ， 以 便 我 们 能 对 实际 执行 中 的 暂 态 状 态 (与 稳定 状态 
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相反 ) 做 出 有 用 的 判断 。 这 是 调试 分 布 式 系统 时 通常 所 要 求 的 。 上 面 我 们 给 出 了 一 个 例子 ， 即 进 
程 集合 中 的 每 一 个 进程 p 都 有 一 个 变量 zs。 在 这 个 例子 中 ， 所 要 求 的 安全 条 件 是 lx 一 x6 (i,j= 1， 
2, …, 和 N)， 即 使 进程 可 能 在 任何 时 候 改 变 它 的 变量 值 ， 也 要 满足 这 个 限制 。 另 一 个 例子 是 一 个 控制 
工厂 管道 系统 的 分 布 式 系统 ， 这 里 我 们 感 兴趣 的 是 是 否 所 有 的 阀门 (由 不 同 的 进程 控制 ) 在 某 些 
时 间 都 是 开放 的 。 在 这 些 例子 里 ， 通 常 我 们 不 能 同时 观察 变量 的 值 或 阀门 的 状态 。 这 里 我 们 面临 
的 挑战 是 随时 监控 系统 的 执行 一 一 即 捕获 “跟踪 ”信息 而 不 是 单个 快照 一 一 以 便 我 们 能 在 此 之 后 
了 解 所 要 求 的 安全 条 件 是 否 成 立 或 已 被 破坏 。 

Chandy 和 Lamport 的 快照 算法 按 分 布 的 方式 收集 状态 ， 我 们 指出 了 系统 中 的 进程 如 何 把 它们 收 
集 的 状态 发 送 给 一 个 监控 进程 。 下 面 描述 的 算法 (归功 于 Marzullo 和 Neiger[1991]) 是 集中 式 的 。 
被 观察 的 进程 将 它们 的 状态 发 送 到 一 个 称 为 监控 器 的 进程 ， 监 控 器 根据 接受 到 的 信息 汇总 成 全 局 
一 致 状态 。 我 们 认为 监控 器 在 系统 之 外 观察 系统 的 执行 。 

我 们 的 目的 是 在 我 们 所 观察 的 系统 执行 的 某 一 点 判定 一 个 给 定 的 全 局 状态 谓词 6 明确 为 True， 
以 及 它 可 能 为 True 的 情况 。 出 现 “ 可 能 ”这 个 概念 是 很 自然 的 事 ， 因 为 我 们 可 以 从 一 个 执行 系统 
中 抽取 一 个 一 致 的 全 局 状态 5 并 发 现 p (8) 为 True。 仅 仅 观察 一 个 一 致 的 全 局 状态 我 们 无 法 判断 出 
一 个 非 稳定 谓词 在 实际 的 执行 中 是 否 曾 为 True。 不 过 ， 我 们 有 兴趣 了 解 它们 是 否 有 可 能 发 生 ， 直 
到 我 们 通过 观察 系统 的 执行 来 明确 这 -- 点 。 

概念 “明确 ”应 用 于 实际 执行 ， 而 不 是 应 用 于 我 们 推断 的 运作 。 考 虑 在 实际 的 执行 中 发 生 了 
什么 听 起 来 有 点 荡 雇 但是， 通过 考虑 所 观察 事件 的 所 有 线性 化 走向 是 有 可 能 判断 出 y 是 否 明 确 为 
True 的 。 

现在 我 们 按照 再 的 线性 化 走向 为 谓词 定义 可 能 的 g 和 明确 的 % 概 念 。 

可 能 的 p 可 能 的 9 意味 着 存在 一 个 一 致 的 全 局 状态 9S， 五 的 一 个 线性 化 走向 经 历 了 这 个 全 局 状 

态 3$， 而 且 该 $ 使 得 (5) 为 True。 
明确 的 pg ”明确 的 gp 意味 着 对 于 H 的 所 有 线性 化 走向 L， 存 在 L 经 历 的 一 个 一 致 的 全 局 状态 5， 
使 得 pg (5S) 为 True。 

当 我 们 使 用 Chandy 和 Lamport 的 快照 算法 ， 并 获得 全 局 状态 5,wwp 时 ， 如 果 p (5,s) 正好 是 True， 
那么 我 们 就 可 以 认为 可 能 的 9 成立 。 但 通常 ,求解 可 能 的 $ 需 要 对 从 所 观察 到 的 执行 中 得 出 的 所 有 
一 致 的 全 局 状态 进行 搜索 。 仅 对 所 有 一 致 的 全 局 状态 S 有 4 (8) 为 False， 这 还 不 是 可 能 的 $ 的 情况 。 
还 要 注意 ， 虽 然 我 们 从 ”可 能 的 4 能 得 出 明确 的 (4 )， 但 我 们 不 能 从 明确 的 (=p) 得 出 "可 能 的 。 
后 者 是 指 如 下 断言 : 在 每 个 线性 化 走向 中 ， 对 于 部 分 状态 -$6 成立 ， 而 对 于 另 一 部 分 状态 成 立 。 

我 们 现在 描述 

。 如 何 收集 进程 状态 。 

"监控 器 如 何 抽取 一 致 的 全 局 状态 。 

“监控 器 如 何在 异步 和 同步 系统 中 求解 可 能 的 % 和 明确 的 4。 

收集 状态 ”所 观察 的 进程 p。(i =1, 2, …, N) 最 初 用 状态 消息 向 监控 器 进程 发 送 它们 的 初始 状 
态 ， 这 以 后 也 会 不 时 发 送 状 态 消息 。 监 控 器 进程 在 单独 的 队列 &@，(;i =1, 2, …, N) 中 记录 来 自 进程 
已 的 状态 消息 。 

准备 和 发 送 状态 消息 的 活动 可 能 会 延迟 所 观察 进程 的 正常 执行 ， 但 对 其 他 方面 没有 受 干扰 。 
除了 初始 时 和 状态 改变 时 ， 其 他 时 候 没有 必要 发 送 状 态 信息 。 有 两 种 优化 方法 可 减少 发 送 到 监控 
器 的 状态 消息 流量 。 第 一 ， 全 局 状态 谓词 可 以 只 依赖 进程 状态 的 菜 一 部 分 。 例 如 ， 它 可 以 仅 依赖 
特定 变量 的 状态 。 这 样 ， 所 观察 的 进程 只 需要 向 监控 器 进程 发 送 相关 状态 。 第 二 ， 进 程 仅 在 谓词 
变 成 True 或 不 再 为 True 时 发 送 它们 的 状态 。 发 送 不 影响 谓词 值 的 状态 的 变化 是 没有 意义 的 。 

例如 ， 在 进程 p 应 该 遵循 ki 一 xl<6 (i,j=1, 2,…, N) 限制 的 系统 例子 中 ， 进 程 只 需要 在 它们 自 
己 的 变量 * 的 值 改变 时 通知 监控 器 。 当 它们 发 送 状态 时 ， 它 们 只 需 提供 xz 的 值 而 不 需要 发 送 其 他 变量 。 
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11.6.1 观察 一 致 的 全 局 状态 

为 了 计算 pg， 监控 器 必须 汇总 一 致 的 全 局 状态 。 先 回忆 一 下 ， 一 个 割 集 C 是 一 致 的 当 且 仅 当 对 
割 集 C 中 所 有 的 事件 e 有 /一 e 一 谍 C 时 。 

例如 ， 图 11-14 给 出 了 两 个 进程 p, 和 p;， 它 们 分 别 有 变 量 x, 和 x,。 在 (具有 向 量 时 间 惟 的 ) 时 间 
线 上 的 事件 是 对 两 个 变量 的 值 作 调整 。 初 始 的 时 候 ，xi = x, = 0。 要 求 是 | x, - x, 1<50。 进 程 对 变 
量 作 调整 ， 但 “大 的 ”调整 将 使 包含 新 值 的 消息 被 发 送 到 其 他 进程 。 当 一 个 进程 从 另 一 个 进程 接 
收 到 一 个 调整 消息 ， 它 会 把 它 的 变量 设 成 消息 中 所 含 的 值 。 


(1.0) (2.0) (3.0) (4,3) 
X=] X=100 v=105 XI=90 


pi 


物理 时 间 





割 集 C， 割 集 C， 
图 11-14 执行 图 11-9 产 生 的 向 量 时 间 惟 和 变量 值 


每 次 进程 p, 或 p, 中 的 一 个 调整 了 它 的 变量 值 (不 论 是 “小 的 ”调整 还 是 “大 的 ”调整 )， 它 就 
通过 状态 消息 给 监控 器 进程 发 送 一 个 值 。 监 控 器 进程 在 为 p,、p; 而 设置 的 队列 中 保存 该 消息 几 于 分 
析 。 如 果 监 控 器 进程 使 用 图 11-14 中 不 一 致 制 集 C1 中 的 值 ， 那 么 它 将 发 现 x,=1，x=100， 这 违反 了 
约束 ! x, 一 x，1< 50。 但 这 个 状态 是 不 会 发 生 的 。 另 一 方面 ， 来 自 一 到 制 集 C, 的 值 显示 x1=105， 
X=90。 

为 了 让 监控 器 区 分 不 一 致 的 全 局 状态 和 一 致 的 全 局 状态 ， 被 观察 的 进程 在 它们 的 状态 消息 中 
附 上 了 向 量 时 钟 值 。 每 个 队列 2 都 以 发 送 顺序 排序 ， 这 是 通过 检查 向 量 时 间 戳 的 第 ;个 部 分 实现 的 。 
监控 器 进程 可 能 因为 变量 消息 有 延迟 而 从 到 达 次 序 上 推断 不 出 不 同 进程 发 送 的 状态 的 顺序 。 它 必 
须 检查 状态 消息 的 向 量 时 间 戳 。 

设 $ = (s1, 52,…,sw) 是 从 监控 器 进程 接收 到 的 状态 消息 中 得 出 的 爹 局 状态 。 设 V(s) 是 从 p 楼 收 到 
的 状态 % 的 向 量 时 间 戳 。 那 么 3 是 一 致 的 全 局 状态 当 且 仅 当 ， 

Ye 四 > Vs (Gi,j=1,2,…,N) 一 一 (CGS 条 件 ) 

也 就 是 说 ， 当 pj 发 送 s, 时 ，p, 知道 的 pi 的 事件 个 数 不 多 于 在 p, 发 送 % 时 在 p 发 生 的 事件 个 数 。 换 
句 话说， 如 果 一 个 进程 的 状态 依赖 于 另 一 个 进程 的 状态 (根据 发 生 在 先 排序 ) ， 那 么 全 局 状态 也 包 
含 了 它 所 依赖 的 状态 。 


民 次 0 Soo 
总 之 ， 我们 的 方法 是 使 用 出 被 观察 进程 保 。 。“， ;7 
持 的 向 量 时 间 玲 和 在 被 观察 进程 发 送 给 监控 器 。 ， 5 
的 状态 消息 上 附带 信息 ， 这 样 ， 鉴 控 器 进程 可 。 6 八 。 作业 各 和 刘 体 及 在 进 和 2 
以 判断 一 个 给 定 的 全 局 状态 是 否 一 致 。 4 A 
图 11-15 给 出 了 与 图 11-14 的 两 个 进程 执行 5 3s, 
相对 应 的 一 致 的 全 局 状态 的 网 格 。 这 个 结构 捕 。” ” 。 Ne 
获 了 一 致 全 局 状态 之 间 的 可 达 性 关系 。 节 点 表 。， si 


示 全 局 状态 ， 边 表示 状态 之 间 可 能 的 变换 。 全 

局 状态 Su 表示 在 初始 状态 中 有 两 个 进程 ， Su 表 图 115 执行 图 11-14 产 生 的 全 局 状态 网 格 

示 p: 仍 在 它 的 初始 状态 ， 忆 处 在 它 的 本 地 历史 中 的 下 一 个 状态 。 状 态 Su 不 是 一 致 的 ， 因 为 消息 mr 从 
P' 发 送 到 ps， 所 以 它 没有 出 现在 网 烙 中 。 


人 
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网 格 按 层次 排列 ， 例 如 ，5o 在 层次 0，5io 在 层次 1。 通 常 ，5; 位 于 层次 (i+ 让 。 线 性 化 走向 从 
任 一 全 局 状态 开始 遍历 网 格 到 达 下 一 层 的 全 局 状态 ， 也 就 是 说 ， 在 每 一 步 ， 都 有 一 些 进程 经 历 了 
一 个 事件 。 例 如 ， 可 从 52o 到 达 5,,， 但 不 能 从 5 到 达 52。 

网 格 给 出 了 与 一 个 历史 相对 应 的 所 有 线性 化 走向 。 现 在 从 原理 上 能 清楚 地 知道 一 个 监控 器 进 
程 应 如 何 判 定 可 能 的 $p 和 明确 的 gp。 为 了 判定 可 能 的 gp， 监控 器 进程 从 初始 状态 开始 ， 经 过 从 这 点 开 
始 可 到 达 的 所 有 一 致 状态 ， 在 每 一 步 判 定 #g。 当 #9 判定 为 True 时 停止 计算 。 为 了 判定 明确 的 pg， 监 控 
器 进程 必须 试图 找到 所 有 线性 化 走向 必须 经 过 的 8 判定 为 True 的 状态 集 。 例 如 ， 如 果 图 11-15 中 的 
4 (S30) 和 9 (5,1) 都 是 True， 那 么 因为 所 有 的 线性 化 走向 经 过 这 些 状 态 ， 所 以 明确 的 gp 成立 。 
11.6.2 判定 可 能 的 9 

为 了 判定 可 能 的 p， 监 控 器 进程 必须 从 初始 状态 (5%4, 55,…, s%) 开始 ， 遍 历 可 达 状 态 的 网 格 。 
算法 如 图 11-16 所 示 。 算 法 假设 执行 是 无 限 的 。 但 可 以 很 容易 地 将 它 改 成 有 限 的 执行 。 

1 对 N 个 进程 的 全 局 历史 有 求解 可 能 的 

L:=0; 

States := {(s%. 90， so))}: 

while( 对 所 有 的 S$ € States, 9($S) = False) 
L:=L+1; 
Reachable := {S': H 中 从 一 些 S E States 可 到 达 的 状态 A levelS) = 上 上 }): 
States:=Reachable 

end while 


输出 “可 能 的 ; 





2. 对 个 进程 的 爹 局 房 史 用 求解 明确 的 @ 
L:=0; 
I (0O (s,s%. .SH)) 那么 Stafes := {} else Stares := {(8%, s,s sO) 
while{States z {}) 
L:=L+ |; 
Reachable := {S 有 H 中 从 - 些 $ € States 可 到 达 的 状态 A level(S") = 上 上 }: 
Siates:= {S € Reachable: $ (S$) = False} 
end while 


输出 “明确 的 ，; 











图 11-16 求解 可 能 的 4 和 明确 的 4 


根据 下 列 方法 ， 监 控 器 进程 可 以 发 现在 L+1 层 中 的 可 从 L 层 一 个 给 定 的 一 致 状态 可 达 的 一 致 状 
态 集 。 设 S = (si, 52…,SN) 是 一 个 一 致 的 状态 ， 那么 从 $ 可 达 的 下 一 层 的 一 致 状态 具有 8 三 (91， 32，…， 
Sn sw) 的 形式 ， 它 与 5 的 不 同 仅仅 在 于 包含 了 一 些 进程 p. 的 (在 一 个 事件 之 后 的 ) 下 一 个 状态 。 
通过 遍历 状态 消息 @，(i = 1, 2…, N) 的 队列 ， 监 控 器 能 找到 所 有 这 样 的 状态 。 状 态 5' 从 5 可 达 当 且 
仅 当 : 

VD 2 Vs 四 (j=1,2,.,N, Bj#i) 

该 条 件 来 自 上 面 的 CGS 条 件 以 及 5 已 经 是 一 个 一 致 的 全 局 状态 这 个 事实 。 通 常 一 个 给 定 的 状态 
可 从 前 一 层 的 几 个 状态 到 达 ， 所 以 监控 器 进程 应 该 仅 对 每 个 状态 判定 一 次 一 致 性 。 
11.6.3 判定 明确 的 4 

为 了 判定 明确 的 p， 监 控 器 进程 再 次 从 初始 状态 (加 ,三 ,…, 叹 ) 开始 ， 每 次 一 野地 刀 历 可 到 过 


状态 的 网 格 。 算 法 (如 图 11-16 所 示 ) 又 一 次 假设 执行 是 无 限 的 ， 但 它 可 很 容易 地 改 成 有 限 的 执行 。 
它 维护 States 集 合 ， 该 集合 包含 当前 层 的 通过 遍历 9 为 False 的 状态 可 从 初始 状态 线性 化 可 达 的 状态 。 
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只 要 这 样 的 线性 化 走向 存在 ， 我 们 就 不 可 以 断言 明确 的 p:， 执行 可 以 采用 这 个 线性 化 走向 ，4 在 每 个 
阶段 可 以 是 False。 如 果 我 们 到 达 了 一 个 不 存在 这 样 的 线性 化 走向 的 层 ， 我 们 就 能 断定 明确 的 9。 
在 图 11-17 中 ， 第 3 层 中 的 States 集 仅 由 一 


个 状态 组 成 ， 这 个 状态 通过 一 个 所 有 状态 都 是 。 “层次 0 py 

False (用 粗 线 标记 ) 的 线性 化 走向 可 达 。 第 4 ! FE 

层 只 考虑 一 个 标记 为 “F” 的 状态 。( 右 边 的 状 “ FF=(WS)=False):T=(WS)=True) 
态 没 有 被 考虑 ， 因 为 它 仅 能 通过 9 判定 为 True 3 FT、 

的 状态 到 达 。) 如 果 y$ 在 第 5 层 的 状态 为 True， 4 、/- 

那么 我 们 可 以 断定 明确 的 pg。 否则 ， 算 法 必须 5 ? 


在 这 个 层次 上 继续 。 图 11-17 判定 明确 的 9 

开销 “刚才 描述 的 算法 是 组 合 爆炸 的 。 假 
设 k 是 一 个 进程 中 的 事件 的 最 大 个 数 。 那 么 我 们 描述 的 算法 需要 0O (x*) 次 比较 (监控 器 进程 相互 
比较 N 个 所 观察 的 进程 的 状态 )。 

这 些 算法 的 空间 开销 是 O (4*)。 但 是 ， 我 们 观察 到 ， 当 从 另外 进程 到 达 的 其 他 状态 项 不 可 能 
与 包含 5; 的 一 个 一 致 的 全 局 状态 相关 时 ， 就 是 说 ， 在 下 列 条 件 成 立时 ， 

VEE >VG)) j= 1,2,.,N, jzi 

其 中 s*“*, 是 监控 器 进程 从 进程 pj 接收 到 最 后 的 状态 ， 那 么 监控 器 进程 可 以 从 队列 8 删除 包含 状态 s, 的 
消息 。 


11.6.4 在 同步 系统 中 判定 可 能 的 gp 和 明确 的 9 

到 目前 为 止 ， 我 们 所 给 出 的 算法 在 一 个 异步 系统 中 工作 : 我 们 没有 设置 时 序 的 假设 。 但 为 此 
付出 的 代价 是 对 于 监控 器 所 检查 的 一 个 一 致 的 全 局 状态 S= (ss …, sw) ， 在 系统 实际 执行 时 ， 其 
中 任意 两 个 本 地 状态 s, 和 s, 可 能 间隔 任意 长 的 时 间 发 生 。 而 现在 ， 我 们 的 需求 是 仅 考虑 这 些 实际 执 
行 在 原则 上 能 遍历 的 全 局 状态 。 

在 同步 系统 中 ， 假 设 进程 均 将 它们 的 物理 时 钟 内 部 同步 在 一 个 已 知 的 范围 ， 并 假设 所 观察 的 
进程 在 它们 的 状态 消息 中 提供 物理 时 间 规 和 向 量 时 间 玲 。 接 着 给 定时 钟 的 近似 同步 值 ， 监 控 器 进 
程 仅 需要 考虑 那些 本 地 状态 可 能 已 经 同时 存在 的 一 致 全 局 状态 。 在 足够 精确 的 时 钟 同步 条 件 下 ， 
这 些 状 态 的 数量 将 比 所 有 全 局 一 致 状态 少 。 

我 们 现在 按 这 种 方式 给 出 一 个 算法 来 利用 同步 时 钟 。 假 设 每 个 要 观察 的 进程 P (i = 1, 2,…,N) 和 
监控 器 进程 (我 们 称 为 Po) 保持 一 个 物理 时 钟 C (i = 0, 1, 2…, N)。 它 们 在 一 个 已 知 的 范围 D>0 内 
同步 。 也 就 是 说 ， 在 同一 实际 时 间 ， 有 

IC(D ~ CAD I<D (i,j =0, 1, …, N) 

所 观察 的 进程 将 带 有 向 量 时 间 和 物理 时 间 的 状态 消息 发 送 给 监控 器 进程 。 监 控 器 进程 现在 应 
用 一 个 条 件 ， 该 条 件 不 仅 用 于 测试 全 局 状态 8 = (s1, s2, …, sw) 的 一 致 性 ， 而 且 在 给 定 物理 时 钟 值 时 
用 于 测试 是 否 在 同一 实际 时 间 能 发 生 每 对 状态 ， 换 句 话 说 ， 对 i,j = 1, 2,…, N， 有 

VSD)[D 之 Vs) 站 ， 且 s 和 s 能 在 同一 实际 时 间 发 生 

条 件 的 第 一 个 部 分 是 我 们 以 前 使 用 的 条 件 。 对 于 第 二 个 部 分 ， 我们 注意 到 p; 是 从 它 第 一 次 通知 
监控 器 进程 的 时 间 C,(s) 到 稍 后 的 本 地 时 间 ZL; (s,)) ( 即 在 p, 发 生 下 一 个 状态 变换 ) 的 时 候 均 处 在 状态 
$i。 劳 虑 到 时 钟 间 步 的 边界 ， 对 在 同一 实际 时 间 上 获得 的 s, 和 s,， 有 : 

Ci(s) 一 D<C(s)<L(s)+D， 反 之 亦 然 (交换 i 和 Hj) 

监控 器 进程 必须 计算 Li(s) 的 值 ， 这 个 值 是 用 p, 的 时 钟 来 度量 的 。 如 果 监 控 器 进程 已 经 接收 到 p， 
的 下 一 个 状态 s ,的 状态 消息 ， 那 么 L(s) 就 是 C(s)。 否 则 ， 监 控 器 进程 把 Li(s) 估 计 为 Cu - max + DD， 
其 中 Co 是 监控 器 当前 的 本 地 时 钟 值 ，max 是 状态 消息 的 最 大 传输 时 间 。 
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11.7 小 结 


本 章 的 开始 描述 了 分 布 式 系统 精确 计时 的 重要 性 ， 接 着 描述 了 同步 时 钟 的 算法 ， 尽 管 存在 时 
钟 漂 移 和 计算 机 之 间 消 息 延 迟 的 可 变性 。 

实际 可 获得 的 同步 精确 度 可 满足 许多 需求 ， 但 对 于 判断 发 生 在 不 同 计算 机 上 的 任意 事件 对 的 
排序 还 是 不 够 的 。 发 生 在 先 关 系 是 事件 的 偏 序 关系 ， 它 反映 了 事件 之 间 的 信息 流 一 一 这 些 事 件 或 
在 一 个 进程 中 ， 或 是 两 个 进程 之 间 的 消息 。 一 些 算法 要 求 事件 按 发 生 在 先 顺序 排序 ， 例 如 ， 后 续 
的 更 新 在 数据 的 一 个 单独 的 备份 里 进行 。Lamport 时 钟 是 一 个 计数 器 ， 它 们 依照 事件 之 间 的 发 生 在 
先 关系 进行 更 新 。 向 量 时 钟 是 Lamport 时 钟 的 改进 ， 因 为 通过 检查 它们 的 向 量 时 间 发 ， 可 以 判断 两 
个 事件 是 按 发 生 在 先 关系 排序 还 是 并 发 的 。 

我 们 介绍 了 下 列 概念 : 事件 、 本 地 历史 、 全 局 历史 、 割 集 、 本 地 状态 、 全 局 状态 、 走 向 、 一 
致 状态 、 线 性 化 走向 〈 一 致 走向 ) 和 可 达 性 。 一 致 状态 或 走向 是 与 发 生 在 先 关系 一 致 的 状态 。 

接着 ， 我 们 考虑 通过 观察 系统 执行 来 记录 一 致 全 局 状态 的 问题 。 我 们 的 目的 是 判定 这 个 状态 
上 的 谓词 。 有 `- 类 重要 的 谓词 是 稳定 谓词 。 我 们 描述 了 Chandy 和 Lamport 的 快照 算法 ， 它 捕获 一 至 
全 局 状态 ， 并 人 允许 我 们 就 一 个 稳定 谓词 是 否 在 实际 执行 中 成 立 给 出 断言 。 接 着 我 们 给 出 了 Marzullo 
和 Neiger 的 算法 ， 用 于 判断 一 个 谓词 是 否 在 实际 的 走向 中 成 立 或 可 能 成 立 。 算 法 采用 一 个 监控 器 进 
程 收集 状态 。 监 控 器 检查 向 量 时 间 惟 来 抽取 一 致 的 全 局 状态 ， 它 构造 并 检查 所 有 一 致 全 局 状态 的 
网 格 。 这 个 算法 的 计算 复杂 性 很 高 ， 但 对 理解 很 有 价值 ， 它 比较 适合 只 有 相对 少 的 事件 改变 全 局 
谓词 值 的 实际 系统 。 这 个 算法 有 一 个 适合 于 时 钟 可 以 同步 的 同步 系统 的 变种 。 


练习 


11.1 为 什么 计算 机 时 钟 同步 是 必要 的 ? 描述 用 于 同步 分 布 式 系统 中 的 时 钟 的 系统 的 设计 需求 。 
(第 434 页 ) 
11.2 当 发 现 一 个 时 钟 快 4 秒 时 ， 它 的 读数 是 10:27:54.0 (小 时 : 分 钟 : 秒 ) 。 解 释 为 什么 这 时 不 愿 
将 时 钟 设 成 正确 的 时 间 ， 并 (用 数字 表示 ) 给 出 它 应 该 如 何 调整 以 便 在 8 秒 后 变 成 正确 的 时 
间 。 





(第 438 页 ) 
11.3 一 种 实现 至 多 一 次 的 可 靠 消息 传递 的 方案 是 使 用 同步 时 钟 来 拒 收 重复 的 消息 。 进 程 在 它们 发 
送 的 消息 中 放 上 本 地 的 时 钟 值 (一 个 “时 间 惟 ”)。 每 个 接收 者 为 每 个 发 送 进程 维护 一 张 表 ， 
在 其 中 给 出 了 它 已 看 到 的 最 大 的 消息 时 间 蕉 。 假 设 时 钟 被 同步 在 100ms 范 围 ， 消 息 在 传递 后 
至 多 50ms 能 到 达 。 
(1) 如 果 一 个 进程 已 经 记录 了 从 为 一 个 进程 接收 到 的 最 后 的 消息 的 时 间 玲 为 T'， 那 么 这 个 进 
程 何 时 能 忽略 具有 时 间 戳 了 的 消息 ? 
(2) 何 时 接收 方 能 从 它 的 表 中 删除 时 间 惟 175 000ms? (提示 ; 使 用 接收 者 本 地 的 时 钟 值 。) 
(3) 时 钟 应 该 进行 内 部 同步 还 是 外 部 同步 ? (第 439 页 ) 
11.4 一 个 客户 试图 与 一 个 时 间 服 务 器 同步 。 它 在 下 表 中 记录 了 由 服务 器 返回 的 往返 时 间 和 时 间 蕉 。 
下 面 哪个 时 间 可 以 用 于 设置 它 的 时 钟 ? 它 应 该 设 成 什么 时 间 ? 与 服务 器 时 钟 相 比 ， 估 计 设 置 
的 精确 性 。 如 果 已 知 系统 发 送 消 息 和 接收 请 息 之 间 的 时 间 是 至 少 gms， 那 么 你 的 答案 应 该 如 





何 改变 ? 
一 -一 _  ” 
往返 时 间 (ms) 了 时间 《小 时 : 分 钟 : 秒 ) 
22 10:54:23.674 
25 10:54:25.450 
20 10:54:28.342 


oO 
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11.15 


11.16 








(第 439 页 ) 
在 练习 11.4 的 系统 中 ， 要 求 将 文件 服务 器 时 钟 同步 在 +lms 的 范围 内 。 讨 论 它 与 Cristian 算 法 
的 关系 。 (第 439 页 ) 
在 NTP 同 步子 网 中 ， 你 希望 发 生 怎样 的 重 配置 ? (第 442 页 ) 


一 个 NTP 服 务 器 B 在 16:34:23.480 接 收 到 来 自 服务 器 A 的 带 有 时 间 稚 16:34:13.430 的 消息 ， 并 对 
消息 给 出 了 应 答 。A 在 16:34:15.725 接 收 到 带 有 B 的 时 间 截 16:34:25.7 的 消息 。 估 计 B 和 A 之 间 


的 偏差 和 估计 的 精确 性 。 (第 443 页 ) 
讨论 当 决定 一 个 客户 应 该 与 哪 一 个 NTP 服 务 器 同步 它 的 时 间 时 ， 应 考虑 什么 因素 。 

(第 444 页 ) 
通过 观察 时 间 的 漂移 率 ， 讨 论 补 偿 同步 点 之 间 的 时 钟 漂移 的 可 能 方法 。 讨 论 该 方法 的 局 
限 性 。 (第 445 页 ) 
通过 考虑 连接 事件 ec 和 e 的 零 或 多 个 消息 的 链 ， 并 使 用 归纳 方法 证 明 e 一 e: = L(e) < L(e')。 

(第 446 页 ) 
证 明 Vli] < Vi (第 447 页 ) 
按 练习 11.10 的 方式 ， 证明 e 一 e' 一 Ye) < Vle')。 (第 448 页 ) 
利用 练习 11.11 的 结果 ， 证 明 如 果 事 件 e 和 e' 是 并 发 的 ， 那么 V(e)<V(e) 和 V(e')<V(e) 均 不 成 
立 。 因 此 证 明 : 如 果 V(e) < Vle')， 那 么 有 e 一 e'。 (第 448 页 ) 


两 个 进程 P 和 用 两 个 通道 连 成 一 个 环 ， 它 们 不 断 地 轮转 消息 m。 在 任何 时 刻 ， 系 统 中 只 有 
一 份 m 的 拷贝 。 每 个 进程 状态 由 它 接收 到 m 的 次 数组 成 ，P 首 先 发 送 m。 在 某 一 点 ，P 得 到 消 
息 且 它 的 状态 是 101。 在 发 送 m 之 后 ，P 启 动 快照 算法 。 给 定 由 快照 算法 报告 的 可 能 的 全 局 
状态 ， 试 解释 该 情况 下 算法 的 操作 。 (第 453 页 ) 


P, 一 
\ 时 间 
Pp; ~ 一 人 


上 图 给 出 了 在 两 个 进程 p, 和 p; 中 发 生 的 事件 。 进 程 之 间 的 箭头 表示 消息 传递 。 
从 初始 状态 (0，0) 开始 ， 画 出 并 标注 一 致 状态 (p, 的 状态 、p; 的 状态 ) 的 网 格 。 

(第 460 页 ) 
Jones 正 在 运行 一 组 进程 p,，p,，…，py。 每 个 进程 p, 包 含 一 个 变量 v,。 她 希望 判定 所 有 变量 
Vw，7m，…，w 在 执行 中 是 否 相等 。 
1) Jones 的 进程 在 同步 系统 中 运行 。 她 使 用 一 个 监控 器 进程 判定 变量 是 否 相等 ， 应 用 进程 何 

时 应 该 与 监控 器 进程 通信 ? 它们 的 消息 应 该 包含 什么 ? 

2) 解释 语句 :possibly (v=v,=… =vh)。Jones 如 何 能 判定 该 语句 在 她 的 执行 中 成 立 。 

(第 461 页 ) 
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第 12 章 协调 和 协定 


本 章 介绍 的 主题 和 算法 与 如 下 问题 有 关 : 在 发 生 故 障 时 ， 分 布 式 系统 中 的 进程 如 何 协调 它们 
的 动作 和 对 共享 值 达 成 协定 。 本 章 将 首先 介绍 实现 一 组 进程 互 斥 的 算法 ， 该 算法 可 用 于 协调 这 些 
进程 对 共享 资源 的 访问 。 接 下 来 研究 在 分 布 式 系统 中 如 何 实现 选举 ， 即 在 前 一 个 协调 者 出 现 故障 
后 ,一 组 进程 如 何 能 就 新 协调 者 达成 一 致 。 

本 这 所 半 部 分 研究 组 扣 肖 信 w 共 只， 于 旋 定 和 和 站 
题 是 对 消息 发 送 顺序 这 样 的 事情 如 何 达成 协定 。 共 识 和 其 他 的 问题 是 由 如 下 问题 归纳 而 来 : 
进程 如 何 对 一 些 值 达成 协定 ， 而 不 管 这 些 值 的 值 域 是 什么 。 我 们 会 过 到 分 布 式 系统 理论 中 的 一 个 
基本 结果 :; 在 某 些 条 件 下 (其 至 包括 良性 故障 条 件 ) 不 可 能 保证 进程 会 达成 共识 。 


12.1 简介 


本 章 将 介绍 一 组 算法 ， 这 些 算法 目标 不 同 ， 但 却 都 具有 分 布 式 系统 的 一 个 基本 目的 : 供 一 组 
进程 来 协调 它们 的 动作 或 对 一 个 或 多 个 值 达成 协定 。 例 如 ， 对 于 像 太空 船 这 样 的 复杂 设备 ， 一 个 
基本 要 求 是 就 控制 它 的 各 个 计算 机 能 对 太空 船 的 任务 是 继续 还 是 已 经 终止 这 样 的 条 件 达 成 协定 。 
此 外 ， 各 个 计算 机 必须 正确 地 协调 它们 关于 共享 资源 (太空 船 的 传感器 和 传动 装置 ) 的 动作 。 计 
算 机 必须 能 做 到 这 些 , 即使 在 各 个 部 分 之 间 没 有 固定 的 主 - 从 关系 ( 主 - 从 关系 会 使 协调 变 得 简单 ) 。 
避免 因 定 的 主 - 从 关系 的 原因 是 ， 我 们 经 常 希 望 系统 在 出 现 故障 时 也 能 正确 工作 ， 因 此 就 需要 避免 
单 节 (例如 固定 的 主 控 器 ) 故障 。 

正如 在 第 11 章 中 那样 ， 对 于 我 们 来 说 ， 一 个 重要 的 差别 是 所 研究 的 分 布 式 系统 是 异步 的 还 是 
同步 的 。 在 异步 系统 中 不 做 时 序 上 的 假设 。 在 同步 系统 中 ， 我 们 假设 消息 传送 的 最 大 延迟 、 进 程 
的 每 步 运 行 时 间 以 及 时 钟 漂移 率 都 有 约束 。 这 些 同步 假设 允许 我 们 用 超时 来 检测 进程 崩溃 。 

除了 讨论 算法 ， 本 章 的 另 一 个 重要 目的 是 考虑 故障 以 及 在 设计 算法 时 如 何 处 理 故 障 。 本 章 将 
使 用 2.3.2 节 介绍 的 一 个 故障 模型 。 处 理 故 障 是 一 个 精细 的 工作 ， 因 此 我 们 先 考 虑 一 些 不 容许 故障 
的 算法 ， 然 后 考虑 针对 良性 故障 的 算法 ， 直 到 过 渡 到 考虑 怎样 容许 随机 故障 。 我 们 会 遇 到 分 布 式 
系统 理论 中 的 一 个 基本 结果 : 即使 在 良性 故障 条 件 下 ， 在 异步 系统 中 也 不 可 能 保证 一 组 进程 能 对 
一 个 共享 值 达成 协定 一 一 例如 太空 船 的 所 有 控制 进程 对 “继续 任务 ”或 “放弃 任务 ”达成 协定 。 

12.2 布 将 研究 分 布 式 互 斥 问题 。 这 是 大 家 熟悉 的 在 内 核 和 多 线程 应 用 中 避免 竞争 条 件 的 问题 在 
分 布 式 系 统 中 的 扩展 。 由 于 在 分 布 式 系统 中 遇 到 的 多 是 资源 共享 问题 ， 因 此 这 是 一 个 重要 的 要 解 
决 的 问题 。 随 后 ，12.3 节 将 介绍 一 个 与 之 相关 但 更 一 般 的 问题 ， 即 如 何 “ 选 举 ” 一 组 进程 中 的 一 个 
来 完成 特定 任务 。 例 如 ， 在 第 11 章 中 ， 我 们 看 到 进程 如 何 把 时 钟 与 一 个 指定 的 时 间 服 务 器 同步 。 
如 果 这 个 服务 器 出 现 故障 ， 而 有 多 个 正常 的 服务 器 可 以 完成 这 一 任务 ， 那 么 为 了 一 致 性 起 见 
须 只 选择 一 个 服务 器 来 接管 。 . 

组 播 通 信和 是 12.4 节 的 主题 。 正 如 在 4.5.1 节 解释 的 ， 组 播 是 一 个 非常 有 用 的 通信 范 型 ， 从 定位 
资源 到 协调 复制 数据 的 更 新 都 有 相应 的 应 用 。12.4 节 将 研究 组 播 的 可 靠 性 和 排序 语义 ， 并 给 出 多 种 
算法 。 组 播 传递 本 质 上 是 进程 间 的 协定 问题 ， 即 接收 者 对 接收 哪些 消息 和 按 什么 顺序 接收 消息 达 
成 一 致 。12.5 节 将 从 更 一 般 性 的 角度 讨论 协定 问题 ， 主 要 形式 是 共识 和 拜占庭 协定 。 

本 章 后 面 的 论述 包括 陈述 假设 和 要 达到 的 目标 ， 以 及 以 非 形式 化 方式 解释 所 给 出 的 算法 为 何 
是 正确 的 。 由 于 篇 幅 所 限 ， 此 处 没有 提供 更 严格 的 论述 。 读 者 可 参考 详细 介绍 分 布 式 算法 的 教材 ， 
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如 Attiya 和 Welch {1998] 编 写 的 教材 以 及 Lynch [1996] 编 写 的 教材 。 
在 给 出 问题 和 算法 之 前 ， 我 们 先 讨论 分 布 式 系统 中 的 故障 假设 和 检测 故障 的 实际 问题 。 


故障 假设 和 故障 检测 器 

为 简单 起 见 ， 本 章 假设 每 对 进程 都 通过 可 靠 的 通道 连接 。 也 就 是 说 ， 尽 管 底层 网 络 组 件 可 能 
出 现 故 障 ， 但 进程 使 用 能 屏蔽 故障 的 可 靠 通信 协议 ， 例 如 通过 重 传 丢 失 或 损坏 的 消息 来 屏 项 故障 。 
为 保持 简洁 性 ， 我 们 还 假设 进程 故障 不 隐 含 对 其 他 进程 的 通信 能 力 的 威胁 。 这 意味 着 没有 进程 依 
赖 于 其 他 进程 来 转发 消息 。 

注意 ， 一 个 可 靠 的 通道 最 终 将 消息 传递 到 接收 者 的 输入 缓冲 区 。 在 同步 系统 中 ， 我 们 假设 在 
必要 的 地 方 有 硬件 元 余 ， 以 便 在 出 现 底层 故障 时 ， 可 
靠 道 道 不 仅 最 终 能 传递 每 个 消息 ， 而 且 能 在 指定 时 间 
内 完成 传递 工作 。 

在 某 个 时 间 间 隔 内 ， 一 些 进 程 之 间 的 通信 可 能 成 
功 ， 而 另 一 些 进 程 之 间 的 通信 则 被 延迟 。 例 如 ， 两 个 
网 络 之 间 的 路 由 器 故障 可 能 意味 着 4 个 进程 被 分 为 两 
对 ， 每 个 网 络 内 的 进程 对 可 以 通信 ， 但 两 对 进程 间 在 
路 由 器 故障 时 是 不 可 能 进行 通信 的 。 这 称 为 网 络 分 区 
(参见 图 12-1)。 在 一 个 点 对 点 的 网 络 上 (如 因特网 )， 
复杂 的 拓扑 结构 和 独立 的 路 由 选择 意味 着 连接 可 能 是 
非 对 称 的 ， 即 从 进程 p 到 进程 9 可 以 通信 ， 但 反之 不 行 。 连 接 还 可 能 是 非 传 递 的 ， 也 就 是 说 ， 从 进 
程 p 到 进程 4g 和 从 进程 9 到 进程 都 可 以 通信 ， 但 p 不 能 直接 与 通信 。 因 此 ， 我 们 的 可 靠 性 假设 要 包括 
任何 有 故障 的 链接 或 路 由 器 最 终 会 被 修复 或 避 开 的 内 容 。 然 而 ， 所 有 进程 不 能 够 同时 进行 通信 。 

除非 特别 说 明 ， 本 章 假定 进程 只 在 崩溃 时 出 故障 一 一 这 个 假定 对 许多 系统 来 说 都 足够 了 。 在 
12.5 节 ， 我 们 将 考虑 如 何 对 待 进程 有 随机 (拜占庭) 故障 的 情况 。 不 论 何 种 故障 ， 一 个 正确 的 进程 
是 在 所 学 虑 的 运行 中 任何 点 都 没有 故障 的 进程 。 注 意 ， 正 确 性 应 用 于 整个 运行 ， 而 非 运 行 的 一 部 
分 。 因 此 ， 一 个 出 现 崩 溃 故 障 的 进程 在 某 一 点 之 前 是 “无 故障 ”的 ， 但 不 是 “正确 ”的 。 

设计 克服 进程 崩溃 的 算法 所 遇 到 的 问题 之 一 是 判断 进程 何 时 已 经 崩溃 。 改 障 检测 器 [Chandra 
and Toueg 1996, Stelling et al. 1998] 是 一 个 服务 ， 该 服务 用 于 处 理 有 关 某 个 进程 是 否 已 经 出 现 故 障 
的 查询 。 故 障 检测 器 通常 是 由 (同一 计算 机 上 的 ) 每 个 进程 中 的 一 个 对 象 实现 的 ， 此 对 象 与 其 他 
进程 的 对 应 部 分 一 起 执行 一 个 故障 检测 算法 。 每 个 进程 中 的 这 个 对 象 叫 做 本 地 夏 障 检 测 器 。 我 们 
稍 后 将 介绍 如 何 实现 故障 检测 器 ， 但 首先 我 们 关注 故障 检测 器 的 一 些 性 质 。 

一 个 故障 “检测 器 ”没有 必要 精确 。 它 们 大 多 属于 不 可 靠 故障 检测 器 的 范畴 。 当 给 出 一 个 进 
程 标 识 时 ， 一 个 不 可 靠 故 障 检测 器 可 以 产生 下 列 两 个 值 之 一 ，Unsuspected 和 Suspected。 这 两 种 结 
果 都 是 提示 ， 这 种 提示 可 能 精确 地 也 可 能 不 精确 地 反映 进程 是 否 确实 出 故障 了 。Unsuspected 表示 
检测 器 最 近 已 收 到 表明 进程 没有 故障 的 证 据 ， 例 如 ， 最 近 从 该 进程 收 到 一 个 消息 。 但 是 那个 进程 
可 以 自 那 以 后 出 现 故 障 。Suspected 表示 故障 检测 器 有 迹象 表明 进程 可 能 已 经 出 故障 了 。 例 如 ， 在 
多 于 最 长 沉默 时 间 里 没有 收 到 来 自 进程 的 消息 (即使 在 异步 系统 里 ， 实 际 使 用 的 上 限 也 可 被 作为 
提示 )。 这 样 的 怀疑 可 能 是 错 的 例如， 进程 可 能 正常 运行 ， 但 在 网 络 分 区 的 另 一 边 ， 或 者 进程 可 
能 运行 得 比 预期 慢 得 多 。 

可 靠 的 故障 检测 器 是 能 精确 检测 进程 故障 的 检测 器 。 对 于 进程 的 询问 ， 它 回答 Unsuspected 
(与 前 面 一 样 ， 这 只 是 一 个 提示 ) 或 Failed。Failed 表 示 检 测 器 确定 进程 已 崩 读 。 如 前 所 述 ， 已 崩 涡 
进程 会 保持 原状 ， 因 为 根据 定义 ， 进 程 一 旦 崩溃 就 不 会 再 采取 其 他 步 又 。 

要 注意 ， 尽 管 我 们 说 一 个 故障 检测 器 是 作用 于 一 组 进程 的 ， 但 是 故障 检测 器 对 一 个 进程 的 应 
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答 只 是 相当 于 该 进程 可 用 的 信息 。 故 障 检测 器 有 了 时 会 对 不 同 的 进程 给 出 不 同 的 应 答 ， 因 为 不 同 进 
程 的 通信 条 件 不 同 。 

我 们 可 以 用 下 述 算法 实现 不 可 靠 的 故障 检测 器 。 每 个 进程 p 向 其 他 所 有 进程 发 送 消息 “p is 
here"， 并 且 每 隔 T 秒 发 送 一 次 。 故 障 检测 器 用 最 大 消息 传输 时 间 D ( 秒 ) 作为 评估 值 。 如 果 进 程 g 
的 本 地 故障 检测 器 在 最 后 一 次 T+D 秒 内 没有 收 到 “P is here” 的 消息 ， 则 向 gq 报告 p 是 Suspected。 但 
是 ， 如 果 后 来 收 到 “p is here” 消 息 ， 则 向 q 报 告 p 是 OK。 

在 实际 的 分 布 式 系统 中 ， 消 息 传送 时 间 是 有 限制 的 。 电 子 邮件 系统 也 会 在 几 天 后 放弃 ， 即 使 
很 可 能 通信 链 路 和 路 由 器 在 此 时 间 里 已 被 修复 。 如 果 我 们 为 T 和 D 选 择 很 小 的 值 (比如 它们 总 共 为 
0.1s)， 那 么 故障 检测 器 很 可 能 会 多 次 怀疑 非 崩溃 的 进程 ， 并 且 大 部 分 带宽 会 被 “p is here” 消 息 占 
据 。 如 果 我 们 选择 一 个 大 的 总 超时 值 (比如 一 星期 )， 那 么 崩溃 的 进程 会 经 常 被 报告 为 
Unsuspected, 

对 于 此 问题 ， 一 个 实用 解决 方案 是 使 用 反映 所 观察 网 络 延迟 条 件 的 超时 值 。 如 果 本 地 故障 检 
测 器 在 20 秒 而 不 是 预期 的 10 秒 内 收 到 “p is here"”， 那 么 它 会 依据 此 值 为 p 重 置 超时 值 。 这 个 故障 检 
测 器 仍然 是 不 可 靠 的 ， 它 对 询问 的 回答 仍 只 是 提示 ， 但 检测 精确 的 概率 增加 了 。 

在 同步 系统 中 ， 可 以 使 我 们 的 故障 检测 器 变 得 可 靠 。 我 们 可 以 选择 D, 使 得 它 不 是 一 个 评估 值 ， 
而 是 消息 传输 时 间 的 绝对 界限 。 如 果 企 T+D 秒 内 没有 收 到 消息 “p is here"， 那 么 本 地 故障 检测 器 
就 可 以 得 出 p 已 经 崩溃 的 结论 。 

读者 可 能 想 知 道 故 障 检测 器 是 否 实用 。 不 可 靠 故 障 检测 器 可 能 怀疑 一 个 无 故障 的 进程 ( 即 它 
们 可 能 是 不 精确 的 ) ， 它 们 也 可 能 不 怀疑 一 个 已 经 出 现 故 障 的 进程 ( 即 它们 可 能 是 不 完全 的 ) 。 另 
一 方面 ， 可 靠 的 故障 检测 器 要 求 系统 是 同步 的 (而 实际 系统 很 少 是 同步 的 )。 

我 们 介绍 故障 检测 器 是 因为 它们 有 助 于 我 们 了 解 分 布 式 系统 中 故障 的 本 质 ， 而 任何 用 于 应 对 
故障 的 实际 系统 必须 检测 故障 不 管 多 么 不 完美 。 但 是 即使 是 不 可 靠 的 故障 检测 器 ， 只 要 它 具 
有 某 些 良 构 特 性 ， 也 能 为 我 们 提供 解决 方案 来 处 理发 生 故 障 时 进程 协调 问题 。 我 们 在 12.5 节 再 讨论 
这 个 问题 。 


12.2 分 布 式 互 斥 


分 布 式 进程 常常 需要 协调 它们 的 动作 。 如 果 一 组 进程 共享 一 个 或 一 组 资源 ， 那 么 访问 这 些 资 
源 时 ， 常 需要 互 斥 来 防止 干扰 并 保证 一 致 性 。 这 就 是 在 操作 系统 领域 中 常见 的 临界 区 问题 。 然 而 ， 
在 分 布 式 系统 中 ， 一 般 来 说 ， 共 享 变量 或 者 单个 本 地 核心 提供 的 设施 都 不 能 用 来 解决 这 个 问题 。 
我 们 需要 一 个 解决 分 布 式 互 所 问题 的 解决 方案 : 一 个 仅 基于 消息 传送 的 解决 方案 。 

在 某 些 情况 下 ， 管 理 共 享 资源 的 服务 器 也 提供 互 斥 机 制 。 第 13 章 将 描述 服务 器 如 何 同步 客户 
对 资源 的 访问 。 但 在 某 些 实际 情况 下 ， 需 要 一 个 单独 的 用 于 互 斥 的 机 制 。 

考虑 多 个 用 户 更 新 一 个 文本 文件 的 情况 。 保 证 他 们 更 新 一 致 的 一 个 简单 方法 是 ， 要 求 编 辑 器 
在 更 新 之 前 锁 住 文件 ， 一 次 只 允许 一 个 用 户 访问 文件 。 第 8 章 描述 的 NSF 文 件 服务 器 是 无 状态 的 ， 
因此 不 支持 文件 加 锁 。 为 此 ，UNIX 系 统 提供 由 守护 进程 locked 实 现 的 一 个 文件 加 锁 服 务 ， 用 于 处 
理 客户 的 加 锁 请 求 。 

一 个 特别 有 趣 的 例子 是 一 组 对 等 进程 在 没有 服务 器 的 环境 下 ,必须 协调 它们 对 共享 资源 的 访问 。 
这 种 情况 经 常 出 现在 以 太 网 、“ 自 组 织 ” 模 式 的 I[EEE 802.11 无 线 网 等 网 络 中 ， 其 中 网 络 接口 作为 对 
等 成 分 进行 协作 ， 使 得 在 共享 介质 上 一 次 只 有 一 个 节点 进行 传输 。 再 考虑 一 个 监控 一 个 停车 场 空位 
数 的 系统 , 在 每 个 人 口 和 出 口 有 一 个 进程 来 跟踪 进出 车 辆 的 数目 。 每 个 进程 记录 停车 场 内 车 辆 总 数 ， 
并 且 显 示 停 车 位 是 否 已 满 。 这 些 进程 必须 一 致 地 更 新 车 辆 数 的 数目 。 有 几 个 方法 能 实现 这 一 点 ， 比 
较 方 便 的 方法 是 这 些 进程 只 要 通过 相互 通信 就 能 互 斥 ， 这 样 可 以 不 需要 单独 的 服务 器 。 
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具有 用 于 分 布 式 互 斥 的 一 般 机 制 是 有 用 的 一 一 这 种 机 制 独立 于 特定 的 资源 管理 方案 。 我 们 现 
在 就 来 研究 可 达到 这 一 目的 算法 。 
互 斥 算法 

考虑 无 共享 变量 的 N 个 进程 p,, i =1, 2…，N 的 系统 。 这 些 进程 只 在 临界 区 访问 公共 资源 。 为 简 
单 起 见 ， 我 们 假设 只 有 一 个 临界 区 。 可 以 很 容易 地 把 我 们 将 要 介绍 的 算法 扩展 到 多 个 临界 区 。 


假设 系统 是 异步 的 ， 进 程 不 出 故障 ， 并 且 消 息 传递 是 可 靠 的 ， 这 样 传递 的 任何 消息 最 终 都 被 
完整 地 恰好 发 送 一 次 。 


执行 临界 区 的 应 用 层 协 议 如 下 : 

enter() // 进 入 临界 区 一 一 如 果 必 要 ， 可 以 阻塞 进入 
resourceAccesses() ”// 在 临界 区 访问 共享 资源 

exit() // 离 开 临 界 区 一 一 其 他 进程 现在 可 以 进入 

我 们 对 互 斥 的 基本 要 求 如 下 : 

ME1: (安全 性 ) 在 临界 区 (CS) 一 次 最 多 有 一 个 进程 可 以 执行 
ME2: (活性 ) 进入 和 离开 临界 区 的 请 求 最 终 成 功 执行 


条 件 ME2 隐 含 着 既 无 死 锁 也 无 饥饿 问题 。 死 锁 涉及 两 个 或 多 个 进程 ， 它 们 由 于 相互 依赖 而 在 
试图 进入 或 离开 临界 区 时 被 无 限期 地 锁 住 。 但 是 ， 即 使 没有 死 锁 ,, 一 个 差 的 算法 也 可 能 导致 饥饿 
问题 : 进程 的 进入 请 求 被 无 限 推迟 。 

没有 饥饿 问题 是 一 个 公平 性 条 件 。 另 一 个 公平 性 问题 是 进程 进入 临界 区 的 顺序 。 按 进程 请 求 
的 时 间 决 定 进入 临界 区 的 顺序 是 不 可 能 的 ， 因 为 没有 全 局 时 钟 。 但 有 时 使 用 的 一 个 有 用 的 公平 性 
条 件 利用 了 请 求 进 入 临界 区 的 消息 之 间 的 发 生 在 先 顺序 (参见 11.4 节 ): 

ME3: (一 顺序 ) 如 果 一 个 进入 CS 的 请 求 发 生 在 先 ， 那 么 进入 CS 时 仍 按 此 顺序 

如 果 一 种 解决 方案 用 发 生 在 先 顺序 来 决定 进入 临界 区 的 先后 ,, 并 且 如 果 所 有 请 求 都 按 发 生 在 
先 建立 联系 ， 那 么 在 有 其 他 进程 等 待 时 ， 一 个 进程 就 不 可 能 进入 临界 区 多 于 一 次 。 这 种 顺序 也 允 
许 进程 协调 它们 对 临界 区 的 访问 。 一 个 多 线程 的 进程 可 以 在 一 个 线程 等 待 进入 临界 区 时 ， 继 续 进 
行 其 他 处 理 。 在 此 期 间 ， 它 可 能 给 另 一 进程 发 消息 ， 该 进程 因此 也 试图 进入 临界 区 。ME3 指 定 第 
一 个 进程 在 第 二 个 进程 之 前 被 准予 进入 临界 区 。 

我 们 按 下 列 标准 评价 互 斥 算法 的 性 能 : 

* 消耗 的 带宽 ， 与 在 每 个 entry 和 exit 操 作 中 发 送 的 消息 数 成 比例 。 

“每 一 次 entry 和 exit 操 作 由 进程 导致 的 客户 延迟 。 

。 算 法 对 系统 吞吐 量 的 影响 。 这 是 在 假定 后 续 进 

程 间 的 通信 是 必要 的 条 件 下 ， 一 组 进程 作为 一 

个 整体 访问 临界 区 的 比率 。 我 们 用 一 个 进程 离 

开 临界 区 和 下 一 个 进程 进入 临界 区 之 间 的 同步 

延迟 来 衡量 着 这 个 影响 。 当 同步 延迟 较 短 时 ， 

吞吐 量 较 大 。 

在 我 们 的 描述 中 ,没有 考虑 资源 访问 的 具体 实 
现 。 但 是 我 们 假设 客户 进程 行为 正常 ， 并 且 在 临界 
区 中 花费 有 限 的 时 间 去 访问 资源 。 

中 央 服 务 器 算法 ”实现 互 斥 的 最 简单 的 方法 是 
使 用 一 个 服务 器 来 授予 进入 临界 区 的 许可 。 图 12-2 给 。 ”图 12-2 为 一 组 进程 管理 互 斥 令 牌 的 服务 器 
出 了 该 服务 器 的 使 用 。 要 进入 一 个 临界 区 ， 一 个 进 
程 向 服务 器 发 送 一 个 请 求 消息 并 等 待 服务 器 的 应 答 。 从 概念 上 说 ,该 应 答 构成 一 个 表示 允许 进入 
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临界 区 的 令 牌 。 如 果 在 请 求 时 没有 其 他 进程 拥有 这 个 令 牌 ， 服 务 器 就 立刻 应 答 来 授予 令 牌 。 如 果 
此 时 另 一 进程 持 有 该 令 牌 ， 那 么 服务 器 就 不 应 答 而 是 把 请 求 放 入 队列 。 在 离开 临界 区 时 ， 给 服务 
器 发 送 一 个 消息 ， 交 回 这 个 令 牌 。 

如 果 等 待 进程 的 队列 不 为 空 ， 服 务 器 会 选择 队列 中 时 间 最 早 的 项 ， 把 它 从 队列 中 删除 并 应 答 
相应 的 进程 。 被 选择 的 这 个 进程 持 有 令 牌 。 图 中 给 出 了 的 请 求 被 加 入 已 经 包含 mi 请 求 的 队列 的 情 
况 。p, 离 开 临 办 区 ， 服 务 器 删除 ps 的 项 并 通过 应 答 ps 来 允许 ps 进入 临界 区 。 进 程 p 目 前 不 需要 进入 
临界 区 。 

如 果 假设 没有 故障 ， 很 容易 看 到 此 算法 满足 安全 性 和 活性 条 件 。 但 是 ， 读 者 会 发 现 此 算法 不 
满足 性 质 ME3 。 

我 们 现在 来 评估 此 算法 的 性 能 。 进 入 临界 区 (即使 在 当前 没有 进程 占有 它 时 ) 需要 两 个 消息 
(请 求 和 随后 的 授权 ) ， 这 样 ， 因 为 往返 时 间 而 使 请 求 进程 被 延迟 。 离 开 临界 区 需要 发 送 一 个 释放 
消息 。 假 设 采用 异步 消息 传递 ， 就 不 会 对 要 离开 临界 区 的 进程 造成 延迟 。 

服务 器 可 能 会 成 为 整个 系统 的 一 个 性 能 瓶颈 。 同 步 延 迟 是 下 面 两 个 消息 往返 一 次 要 花费 的 时 
间 ， 发 到 服务 器 的 释放 消息 和 随后 让 下 一 进程 进入 临界 区 的 授权 消息 。 

基于 环 的 算法 “在 N 个 进程 间 安 排 互 斥 而 不 需 其 他 进程 的 最 简单 的 方法 之 一 是 把 这 些 进程 安排 
在 一 个 逻辑 环 中 。 这 样 只 要 求 每 个 进程 p, 与 环 中 下 一 个 进程 p i ws 有 一 个 通信 通道 。 该 方法 的 
思想 是 通过 获得 在 进程 间 沿 着 环 单 向 (如 顺 时 针 ) 传递 的 消息 为 形式 的 令 牌 来 实现 互 斥 。 环 的 拓 
扑 结构 可 以 与 计算 机 之 间 的 物理 互 连 无 关 。 , 

如 果 一 个 进程 在 收 到 令 牌 时 不 需要 进入 临界 区 ， 那 么 它 立即 把 令 牌 传 给 它 的 邻居 。 需 要 令 牌 
的 进程 将 一 直 等 待 ， 直 到 接收 到 令 牌 为 止 ， 它 会 保留 令 
牌 。 要 离开 临界 区 时 ， 进 程 把 令 牌 发 送 给 它 的 邻居 。 和 一 

进程 的 布局 如 图 12-3 所 示 。 验 证 该 算法 满足 条 件 Be ~ 
ME1 和 ME2 是 很 容易 的 ， 但 令 牌 不 必 按 发 生 在 先 顺 序 获 2 
得 。( 记 住 ， 进 程 可 以 交换 消息 而 不 必 理 会 令 牌 的 轮转 。) 0 

该 算法 会 不 断 消耗 网 络 带宽 ( 当 一 个 进程 在 临界 区 
中 时 除外 )， 进程 沿 着 环 发 送 消 息 ， 即 使 在 没有 进程 需 
要 进入 临界 区 时 也 是 这 样 。 请 求 进 入 临界 区 的 进程 会 延 - sy 
迟 0 个 (这 时 它 正 好 收 到 令 牌 ) 到 N 个 (这 时 它 刚 传 递 了 
令 牌 ) 消息 。 离 开 临界 区 只 需要 一 个 消息 。 在 一 个 进程 TS 
离开 和 下 一 个 进程 进入 临界 区 之 间 的 同步 延迟 可 以 是 
1 一 N 个 消息 传输 。 

使 用 组 播 和 逻辑 时 钟 的 算法 Ricart 和 Agrawala 
[1981] 开 发 了 一 个 基于 组 播 的 实现 N 个 对 等 进程 间 互 斥 的 算法 。 该 算法 的 基本 思想 是 要 进入 临界 区 
的 进程 组 播 一 个 请 求 消息 ， 并 且 只 有 在 其 他 进程 都 回答 了 这 个 消息 时 才能 进入 。 进 程 回答 请 求 的 
条 件 用 于 确保 满足 条 件 ME1 ~ ME3。 

进程 p,, p…, pv 具有 不 同 的 数字 标识 符 。 假 设 进程 互相 之 间 都 有 通信 通道 ， 且 每 个 进程 p, 保 
持 一 个 根据 11.4 节 的 规则 LC1 和 LC2 更 新 的 Lamport 时 钟 。 请 求 进入 的 消息 形 如 <7, p>， 其 中 7 是 发 
送 者 的 时 间 蕉 ，p 是 发 送 者 的 标识 符 。 

每 个 进程 在 变量 state 中 记录 它 的 状态 ， 这 些 状态 包括 在 临界 区 外 (RELEASED) 、 希 望 进入 
(WANTED) 以 及 在 临界 区 内 (HELD)。 图 12-4 给 出 了 协议 。 

如 果 一 个 进程 请 求 进入 ， 而 其 他 进程 的 状态 都 是 RELEASED， 那 么 所 有 进程 会 立即 回答 请 求 ， 
请 求 者 将 得 以 进入 。 如 果 某 进程 状态 为 HELD, 那么 该 进程 在 结束 对 临界 区 的 访问 前 不 会 回答 请 求 ， 


图 12-3 传输 互 斥 令 牌 的 进程 环 
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因此 在 这 期 间 请 求 者 不 能 得 以 进入 。 如 果 有 两 个 或 多 个 进程 同时 请 求 进 入 临界 区 ， 那 么 时 间 惟 最 
近 的 进程 将 是 第 一 个 收集 到 N 一 1 个 应 答 的 进程 ， 它 将 被 准许 下 一 个 进入 。 如 果 请 求 具 有 相等 的 
Lamport 时 间 稚 ， 那 么 请 求 将 根据 进程 的 标识 符 排序 。 注 意 ， 当 一 个 进程 请 求 进 入 时 ， 它 推迟 处 理 
来 自 其 他 进程 的 请 求 ， 直 到 发 送 了 它 自己 的 请 求 并 且 记录 了 该 请 求 的 时 间 改 7 为 止 。 这 样 做 的 目的 


是 为 了 进程 在 处 理 请 求 时 做 出 一 致 的 决定 。 


初始 化 : 
state := RELEASED; 


为 了 进入 临界 区 : 
state := WANTED; 


组 播 请 求 给 所 有 进程 ; | 请 求 处 理 在 此 被 延期 


7 := 请 求 的 时 间 戳 ; 


Wait until (接收 到 的 应 答 数 = (N 一 1)); 


state := HELD; 


在 P(i 关 7 接收 一 个 请 求 <Tp> 


if (state = HELD or (state = WANTED and (7， Pp) < (人 BD 


then 


将 请 求 放 入 p; 队 列 ， 不 给 出 应 答 ; 


else 
马上 给 pj 应 答 ; 
end if 
为 了 退出 临界 区 : 

state := RELEASED.; 


对 已 人 队列 的 请 求 给 出 应 答 ; 


图 12-4 Ricart 和 Agrawala 算 法 





该 算法 实现 了 安全 性 特性 ME1。 如 果 两 个 进程 p; 和 p， 〈i#Jj) 能 同时 进入 临界 区 ， 那 么 这 两 个 
进程 必须 已 经 互相 回答 了 对 方 。 但 是 ， 因 为 <T,, Pi> 对 是 全 排序 的 ， 所 以 这 是 不 可 能 的 。 请 读者 自 


行 证 明 算 法 满足 需求 ME2 和 ME3。 


为 了 说 明 上 述 算法 ， 考 虑 图 12-5 所 示 的 涉及 三 个 进程 p,/、ps 和 p; 的 情况 。 假 设 p; 不 打算 进入 临 
界 区 ， 而 p! 和 ps 并 发 地 请 求 进入 。p1 的 请 求 的 时 间 惟 是 41 ，p, 的 请 求 的 时 间 玲 是 34。 当 p; 接 到 它们 


的 请 求 时 ， 将 立即 应 答 。 当 p, 接 到 p1 的 请 求 时 ， 
它 发 现 自己 的 请 求 有 更 早 的 时 间 蕉 ， 因 此 不 予 
应 答 ， 将 p1 搁 置 。 然 而 ，p1 发 现 p; 的 请 求 比 自 
己 的 请 求 有 更 早 的 时 间 戳 ， 因 此 立即 应 答 。P 
一 收 到 第 二 个 应 答 ， 便 能 进入 临界 区 。 当 p, 离 
开 临 界 区 时 ， 它 将 应 答 p, 的 请 求 ， 因 此 允许 p， 
进入 。 

在 该 算法 中 ， 获 得 进入 的 许可 需要 2(N 一 1) 
个 消息 : Nl 个 消息 用 于 组 播 请 求 ， 随 后 是 N 一 
1 个 应 答 。 如 果 硬 件 支 持 组 播 ， 请 求 只 需要 一 
个 消息 ， 那 么 共 需 要 N 个 消息 。 因 此 ， 在 带宽 
消耗 方面 ， 该 算法 比 前 述 算法 更 昂贵 。 然 而 ， 





图 12-5 组 播 同步 
请 求 进 入 的 客户 延迟 仍 是 一 个 往返 时 间 (忽略 组 播 请 求 消息 带 来 的 延迟 )。 
该 算法 的 优点 是 它 的 同步 延迟 仅 是 一 个 消息 传输 时 间 。 前 两 个 算法 都 有 一 个 往返 的 同步 延迟 。 


304 莫 12 章 








该 算法 的 性 能 可 以 改进 。 首 先 我 们 注意 到 ， 最 近 一 次 进入 过 临界 区 且 没 有 接 到 其 他 的 进入 请 
求 的 进程 ， 仍 需 如 描述 的 那样 执行 协议 ， 即 使 它 可 以 简单 地 在 本 地 把 令 牌 重新 分 配给 自己 。 其 次 ， 
Ricart 和 Agrawala 改 进 了 协议 ， 使 它 在 没有 硬件 支持 组 播 时 ， 在 最 坏 (也 是 通常 的 ) 情况 下 需要 N 
个 消息 来 获得 进入 许可 。 对 此 的 描述 见 Raynal [1988]。 

Maekawa 投 票 算法 ”Maekawa [1985] 观 察 到 ， 为 了 让 一 个 进程 进入 临界 区 ， 不 必要 求 所 有 对 
等 进程 都 同意 。 只 要 任意 两 进程 使 用 的 子 集 有 重 登 ， 进 程 只 需要 从 其 对 等 进程 的 子 集 获 得 进入 许 
可 即 可 ， 我 们 可 以 把 进入 临界 区 想象 成 进程 互相 选举 。 一 个 “候选 ”进程 为 进入 必须 收集 到 足够 
的 选票 。 在 两 个 投票 者 集合 的 交集 中 的 进程 ， 通 过 把 选票 只 投 给 一 个 候选 者 ， 保 证 了 安全 性 MBE1， 
即 最 多 只 有 一 个 进程 可 以 进入 临界 区 。 

Maekawa 把 每 个 进程 p，(i = 1, 2, …, N) 关联 到 一 个 选举 集 V;,， 其 中 Vi C 1P pi, …, Pn}。 集 合 





V 的 选择 ， 使 得 对 所 有 i,j = 1.2,…, N， 有 : 
*p;EV。 


*V, 人 Vz $， 即 任意 两 个 选举 集 至 少 有 一 个 公共 成 员 。 


*IVi1 = 天, 即 为 公平 起 见 ， 每 个 进程 有 同 

样 大 小 的 选举 集 。 

。 每 个 进程 p; 包括 在 选举 集 V, 中 的 M 个 集 

合 中 。 

Maekawa 指 明 ， 最 优 解 〈 即 使 K 最 小 且 人 允 
许 进程 达到 互 斥 的 情况 ) 具有 K~ YN HM = 天 
(因此 每 个 进程 所 在 的 选举 集 数 与 每 个 集合 中 
的 元 素数 相同 )。 计 算 最 优 集 R; 并 不 简单 。 作 
为 一 种 近似 ， 得 到 使 IR4 ~ 2 VN 的 集合 R 的 一 
个 简单 方法 是 把 进程 放 在 一 个 YN x VN 抢 阵 
中 ， 并 令 V 是 包含 p, 的 行 和 列 的 并 集 。 

Maekawa 算 法 如 图 12-6 所 示 。 为 获得 进入 
临界 区 的 许可 ， 进 程 p, 发 送 请 求 消息 给 V 的 所 
有 天 个 成 员 (包括 自己 )。 在 收 到 所 有 KK 个 应 答 
消息 前 ，p; 不 能 进入 临界 区 。 当 V, 中 的 进程 p， 
收 到 忆 的 请 求 消息 时 ， 它 立即 发 送 一 个 应 答 消 
息 ， 除 非 它 的 状态 是 HELD ， 或 者 它 自从 它 上 
次 收 到 一 个 释放 消息 以 来 已 经 给 了 应 答 (“已 
投票 ”)。 这 时 ， 它 把 请 求 消息 加 入 队列 ( 按 到 
达 时 间 顺 序 )， 但 现在 不 回答 。 当 一 个 进程 收 
到 一 个 释放 消息 时 ， 它 从 请 求 队列 中 删除 队 头 
(如 果 队列 不 空 )， 并 发 送 一 个 应 答 消 息 (一 个 
“投票 ") 响应 该 释放 消息 。 为 了 离开 临界 区 ， 
Pi 发 送 释 放 消 息 给 V; 中 的 所 有 K 个 成 员 (包括 
自己 )。 

该 算法 实现 了 安全 性 ME1。 如 果 两 个 进程 


Pp; 和 p; 能 同时 进入 临界 区 ， 那 么 VV 9 中 的 进程 必须 已 经 对 它们 两 个 投票 。 但 该 算法 规定 一 个 





初始 化 : 
state := RELEASED: 
voted := FALSE. 
pi 为 了 进入 临界 区 :; 
state := WANTED: 
将 请 求 组 播 给 Vi 中 的 所 有 进程 ， 
Wait until (接收 到 的 应 答 数 = 天 ); 
state := HELD; 
在 p; (i 关 j ) 接 收 来 自 p; 的 请 求 : 
if (state = HELD or voted = TRUE) 
then 
将 来 自 户 的 请 求 放 和 队列， 不 子 应 答 ， 
else 
将 应 答 发 给 pi: 
voted := TRUE; 
end if 
Pj; 为 了 退出 临界 区 : 
state := RELEASED: 
将 释放 组 播 给 V 中 的 所 有 进程 ， 
在 pj (i 让 接收 到 来 自 pi; 的 释放 : 
if (请 求 队列 非 空 ) 
then 
删除 队列 头 一 一 例如 Pi; 
将 应 答 发 给 Pi 
voted := 下 RUE; 
else 
voted := FALSE.; 
end if 





图 12-6 Maekawa 算 法 


进程 在 连续 收 到 的 释放 消息 之 间 最 多 投 一 个 选票 ， 所 以 上 述 情况 是 不 可 能 的 。 


遗憾 的 是 ， 该 算法 易于 死 锁 。 考 虑 三 个 进程 p,、ps、p3,， 且 Vi = { pi, p2}, Vi = { pz, ps}, Vs 
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{p3, P1}。 如 果 三 个 进程 并 发 地 请 求 进入 临界 区 ， 那 么 可 能 六 应答 了 自己 但 延缓 p,，p2 应 答 了 自己 
但 延缓 p;， 户 应 答 了 自己 但 延缓 p,。 每 个 进程 收 到 两 个 应 答 中 的 一 个 ， 故 都 不 能 继续 。 

可 以 修改 算法 [Saunder 1987] 使 其 成 为 无 死 锁 的 。 在 修改 后 的 协议 中 ， 进 程 按 发 生 在 先 顺序 
对 待 应 答 的 请 求 排队 ， 因 此 也 满足 需求 ME3。 

该 算法 的 带宽 使 用 是 每 次 进入 临界 区 需 2 VN 个 消息 ， 每 次 退出 需要 VN 个 消息 (假设 没有 硬 
件 组 播 故障 ) 。 如 果 N>4，3 VN 的 结果 要 优 于 Ricart 和 Agrawala 算 法 的 2(N 一 1) 的 结果 。 客 户 延迟 与 
Ricart 和 Agrawala 算 法 一 样 ， 但 同步 延迟 更 差 一 些 ， 因 为 是 一 个 往返 时 间 ， 而 不 是 单个 消息 的 传输 
时 间 。 

容错 在 容错 方面 ， 评 估 以 上 算法 的 要 点 是 : 

。 当 消息 丢失 时 会 发 生 什么 ? 

。 当 进程 崩 省 时 会 发 生 什么 ? 

如 果 通 道 不 可 靠 ， 我 们 介绍 的 算法 都 不 能 容忍 消息 丢失 。 基 于 环 的 算法 不 能 容忍 任何 单个 进 
程 的 崩溃 故障 。Maekawa 算 法 可 以 容忍 一 些 进程 的 崩溃 故障 ， 如 果 一 -个 贿 省 进程 不 在 所 需 的 投票 
集中 ， 那 么 它 的 故障 不 会 影响 其 他 进程 。 中 央 服 务 器 算法 可 以 容忍 一 个 既 不 持 有 也 不 请 求 令 牌 的 
客户 进程 的 崩溃 故障 。 可 以 通过 隐 式 地 给 所 有 请 求 授权 来 修改 我 们 描述 的 Ricart 和 Agrawala 算 法 ， 
使 得 它 容忍 进程 的 崩溃 故障 。 

请 读者 考虑 ， 假 设 存在 可 靠 的 故障 检测 器 ， 如 何 修改 算法 使 之 能 够 容错 。 即 使 有 一 个 可 靠 的 
故障 检测 器 ， 也 需要 注意 允许 在 任何 点 出 故障 (包括 在 恢复 过 程 期 间 ) 并 在 检测 到 故障 以 后 重 构 
进程 的 状态 。 例 如 ， 在 中 央 服 务 器 算法 中 ， 如 果 服 务 器 发 生 故 障 ， 那 么 无 论 它 持 有 令 牌 还 是 客户 
进程 中 的 一 个 持 有 令 牌 ， 都 必须 恢复 它们 。 

在 12.5 节 我 们 将 研究 在 有 故障 时 进程 如 何 协调 它们 的 动作 。 


12.3 选举 


选择 一 个 唯一 的 进程 来 扮演 特定 角色 的 算法 称 为 选举 算法 。 例 如 ， 在 我 们 的 “中 央 服 务 器 ” 
互 斥 算法 的 一 个 变种 中 ,“ 服 务 器 ”是 从 需要 使 用 临界 区 的 进程 p,, (i = 1, 2, …, N ) 中 选择 的 。 这 就 
需要 一 个 选举 算法 来 选择 一 个 进程 来 扮演 服务 器 的 角色 。 基 本 要 求 是 所 有 进程 都 同意 这 个 选择 。 
然后 ， 如 果 担 任 服务 器 角色 的 进程 不 想 再 担任 此 角色 ， 那 么 需要 再 进行 -次 选举 来 选择 替代 者 。 

如 果 一 个 进程 采取 行动 启动 了 选举 算法 的 一 次 运行 ， 则 称 该 进程 召集 选举 。--- 个 进程 每 次 最 
多 召集 一 次 选举 ， 但 原则 上 个 进程 可 以 并 发 召集 N 次 选举 。 在 任何 时 间 点 ， 进 程 m 可 以 是 一 个 参 
加 者 一 一 意 指 它 参 加 选举 算法 的 某 次 运行 ， 也 可 以 是 非 参 加 者 一 一 意 指 它 当前 没有 参加 任何 选举 。 

一 个 重要 的 要 求 是 对 当选 进程 的 选择 必须 唯一 ， 即 使 若干 个 进程 并 发 地 召集 选举 。 例 如 ， 两 
个 进程 可 以 独立 判定 一 个 协调 进程 已 经 失败 ， 并 且 都 召集 选举 。 

不 失 一 般 性 ， 我 们 要 求 选择 具有 最 大 标识 符 的 进程 为 当选 进程 。“ 标 识 符 ”可 以 是 任何 有 用 
的 值 ， 只 要 标识 符 唯一 且 可 按 全 序 排序 即 可 。 例 如 ， 通 过 用 <1/ioad, i> 作 为 进程 的 标识 符 (其 中 
1oad >0 且 进程 索引 i 用 于 对 负载 相同 的 标识 符 排序 ) ， 我 们 可 以 选举 出 具有 最 低 计算 负载 的 进程 。 

每 个 进程 P (= 1, 2, …, N) 有 一 个 变量 elected,， 用 于 包含 当选 进程 的 标识 符 。 当 进程 第 一 次 
成 为 -次 选举 的 参加 者 时 ， 它 把 变量 值 置 为 特殊 值 “ 41”， 表 示 该 值 还 没有 定义 。 

我 们 的 要 求 是 ， 在 算法 的 任何 一 次 运行 期 间 ， 满 足 ; 

El: (安全 性 ) 。 参与 的 进程 p, 有 elected, = 1 ， 或 elected, = P， 其 中 P 是 在 运行 结束 时 具有 景 

大 标识 符 的 非 崩 涡 进 程 

E2: (活性 ) 所 有 进程 p; 都 参加 并 且 最 终 置 elected, * 上 ， 或 者 进程 p, 崩 涡 

注意 ， 可 能 有 还 不 是 参加 者 的 进程 pp， 它 在 elected; 中 记录 着 上 次 当选 进程 的 标识 符 。 
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我 们 通过 使 用 的 总 的 网 络 带宽 (与 发 送 消 息 的 总 数 成 比例 ) 和 算法 的 回转 时 间 (从 启动 算法 
到 终止 算法 之 间 的 串 行 消息 传输 的 次 数 ) 来 衡量 一 个 选举 算法 的 性 能 。 

基于 环 的 选举 算法 “我们 给 出 Chang 和 Roberts [1979] 的 算法 ， 该 算法 适合 按 逻 辑 环 排列 的 一 
组 进程 。 每 个 进程 m 有 一 个 到 下 一 进程 pu , v ww 的 通信 通道 ， 所 有 消息 顺 时 针 沿 着 环 发 送 。 我 们 
假设 没有 故障 发 生 ， 并 且 系 统 是 异步 的 。 该 算法 的 目标 是 选举 一 个 叫做 协调 者 的 进程 ， 它 是 具有 
最 大 标识 符 的 进程 。 

最 初 ， 每 个 进程 被 标记 为 选举 中 的 一 个 非 参 加 者 。 任 何 进程 可 以 开始 一 次 选举 。 它 把 自己 标 
记 为 一 个 参加 者 ， 然 后 把 自己 的 标识 符 放 到 一 个 选举 消息 里 ， 并 把 消息 顺 时 针 发 送 给 它 的 邻居 。 

当 一 个 进程 收 到 一 个 选举 消息 时 ， 它 比较 消息 里 的 标识 符 和 它 自 己 的 标识 符 。 如 果 到 达 的 标 
识 符 较 大 ， 它 把 消息 转发 给 它 的 邻居 。 如 果 到 达 的 标识 符 较 小 ， 且 接收 进程 不 是 一 个 参加 者 ， 它 
就 把 消息 里 的 标识 符 替换 为 自己 的 ， 并 转发 消息 ， 如 果 它 已 经 是 一 个 参加 者 ， 它 就 不 转发 消息 。 
任何 情况 下 ， 当 转发 一 个 选举 消息 时 ， 进 程 把 自己 标记 为 一 个 参加 者 。 

然而 ， 如 果 收 到 的 标识 符 是 接收 者 自己 的 ， 这 个 进程 的 标识 符 一 定 最 大 ， 该 进程 就 成 为 协调 
者 。 协 调 者 再 次 把 自己 标记 为 非 参加 者 并 向 它 的 邻居 发 送 一 个 当选 消息 ， 宣 布 它 当 选 并 将 它 的 身 
份 放 入 消息 中 。 

当 进 程 p; 收 到 一 个 当选 消息 时 ， 它 把 自己 标记 为 非 参 加 者 ， 置 变量 elected; 为 消息 里 的 标识 符 ， 
并 且 把 消息 转发 到 它 的 邻居 ， 除 非 它 是 新 的 协调 者 。 

容易 证 明 该 算法 满足 条 件 E1。 因 为 一 个 进程 在 发 送 当 选 消息 前 必须 收 到 自己 的 标识 符 ， 所 以 
所 有 标识 符 都 被 比较 了 。 对 任意 两 个 进程 ， 标 识 符 较 大 的 进程 不 会 传递 另 一 进程 的 标识 符 。 因 此 
不 可 能 两 者 都 收 到 它们 自己 的 标识 各 

根据 算法 保证 环 的 遍历 (没有 故障 ) 立即 可 证 明 条 件 E2。 注 意 ， 非 参加 者 和 参加 者 状态 的 使 
用 方式 ， 这 种 使 用 方式 使 另 一 进程 同时 开始 进行 的 一 次 选举 所 引发 的 消息 被 尽 可 能 地 压制 ， 并且 
总 在 “获胜 的 ”选举 结果 宣布 之 前 进行 。 

如 果 只 有 一 个 进程 启动 一 次 选举 ， 最 坏 的 情况 是 它 的 逆 时 针 方 向 的 邻居 具有 最 大 的 标识 符 。 
这 时 ， 到 达 该 邻居 需要 N 一 1 个 消息 ， 并 且 还 需要 N 个 消息 再 完 


成 一 个 回路 ， 才 能 宣布 它 的 当选 。 接 着 当选 消息 被 发 送 N 次 ， sr 
共计 3N-1 个 消息 。 回 转 时 间 也 是 3N-1， 因 为 这 些 消息 都 是 顺 4 
序 发 送 的 。 天 
进行 中 的 一 次 基于 环 的 选举 的 例子 如 图 12-7 所 示 。 选 举 。 妃 
消息 当前 包含 24， 但 进程 28 会 在 消息 到 达 时 ， 把 它 替换 为 自 
己 的 标识 符 。 1 AN 
虽然 基于 环 的 算法 有 助 于 理解 一 般 选 举 算法 的 性 质 ， 但 和 1 
是 它 不 容错 的 事实 限制 了 它 的 实用 价值 。 然 而 ， 通 过 利用 可 。 注 ， 渤 漂 从 进程 17 开 始 ， 到 目前 为 上 ， 
靠 的 故障 检测 器 ， 在 一 个 进程 崩溃 时 重 构 环 原则 上 是 可 能 的 。 所 遇 到 的 最 大 的 进程 标识 符 是 24。 


霸道 算法 ”霸道 算法 [Garcia-Molina 1982] 虽然 假定 进程 参与 的 进程 用 深 色 显 示 。 
间 消 息 发 送 是 可 靠 的 ， 但 它 允 许 在 选举 期 间 进程 月 涡 。 与 基 图 12-7 进行 中 的 一 次 基于 环 的 选举 
于 环 的 算法 不 同 ， 该 算法 假定 系统 是 同步 的 : 它 使 用 超时 来 
检测 进程 故障 。 另 一 个 区 别 是 ， 基 于 环 的 算法 假定 进程 相互 之 间 具 有 最 小 的 先 验 知识 : 每 个 进程 
只 知道 如 何 与 邻居 通信 ， 且 没有 进程 知道 其 他 进程 的 标识 符 。 而 霸道 算法 假定 每 个 进程 知道 哪些 
进程 有 更 大 的 标识 符 ， 并 且 可 以 和 所 有 这 些 进 程 通信 。 

在 该 算法 中 有 3 种 类 型 的 消息 。 选 举 消 息 用 于 宣布 选举 ， 回 答 消 息 用 于 回复 选举 消息 ， 协 调 者 
消息 用 于 宣布 当选 进程 的 身份 一 一 新 的 “协调 者 ”。 一 个 进程 通过 超时 发 现 协 调 者 已 经 出 现 故 障 ， 





放 碍 和 和 放 定 307 





并 开始 一 次 选举 。 几 个 进程 可 能 同时 观察 到 此 现象 。 

因为 系统 是 同步 的 ， 所 以 我 们 可 以 构造 一 个 可 靠 的 故障 检测 器 。 最 大 消息 传输 延迟 为 To ， 
最 大 消息 处 理 延 迟 为 Teess。 因 此 ， 我 们 可 以 计算 时 间 T = 27iwwst Tpwocess， 它 是 从 发 送 一 个 消息 给 另 、 
一 进程 到 收 到 回复 的 总 时 间 的 上 界 。 如 果 在 T 时 间 内 没有 收 到 应 答 ， 本 地 故障 检测 器 可 以 报告 请 求 
的 预期 接收 者 已 经 出 现 故障 。 

知道 自己 有 最 大 标识 符 的 进程 可 以 通过 发 送 协调 者 消息 给 所 有 具有 较 小 标识 符 的 进程 ， 来 选 
举 自己 为 协调 者 。 另 一 方面 ， 有 较 小 标识 符 的 进程 通过 发 送 选举 消息 给 那些 有 较 大 标识 符 的 进程 
来 开始 一 次 选举 ， 并 等 待 回 答 消息 。 如 果 在 时 间 7 内 没有 消息 到 达 ， 该 进程 便 认为 自己 是 协调 者 ， 
并 发 送 协 调 者 消息 给 所 有 有 较 小 标识 符 的 进程 来 宣布 这 一 结果 。 否 则 ， 该 进程 再 等 待 时 间 7' 以 接 
收 从 新 的 协调 者 发 来 的 消息 。 如 果 没 有 消息 到 达 ， 它 开始 另 一 次 选举 。 

如 果 进 程 p, 收 到 一 个 协调 者 消息 ， 它 把 它 的 变量 elected; 置 为 消息 中 包含 的 协调 者 的 标识 符 ， 
并 把 这 个 进程 作为 协调 者 。 

如 果 一 个 进程 收 到 一 个 选举 消息 ， 它 回 送 一 个 回答 消息 并 开始 另 一 次 选举 一 一 除非 它 已 经 开 
始 了 一 次 选举 。 

当 启动 一 个 进程 来 替换 一 个 崩溃 进程 时 ， 它 开始 一 次 选举 。 如 果 它 有 最 大 的 进程 标识 符 ， 它 
会 决定 自己 是 协调 者 ， 并 向 其 他 进程 宣布 。 因 此 即使 当前 协调 者 正在 起 作用 ， 它 也 会 成 为 协调 者 。 
正 是 因为 这 个 原因 ， 该 算法 被 称 为 “霸道 ”算法 。 

算法 的 运行 过 程 如 图 12-8 所 示 。 有 4 个 进程 p,~ps。 进 程 六 检测 到 协调 者 ps 出 现 故 障 ， 并 宣布 
进行 选举 (图 中 阶段 1)。 当 收 到 pi 发 来 的 选举 消息 时 ， 进 程 p, 和 p; 发 送 回 答 消息 给 p1|， 并 开始 它 
们 自己 的 选举 ，p; 发 送 一 个 回答 消息 给 p,， 但 p; 没 有 从 出 现 故 障 的 进程 ps 收 到 回答 消息 阶段 2) 。 
因此 它 决定 自己 是 协调 者 。 但 在 它 发 出 协调 者 消息 之 前 ， 它 也 出 现 故 障 (阶段 3)。 当 p 的 超时 周 
期 7' 过 去 后 (我们 假设 这 发 生 在 p, 的 超时 周期 过 去 之 前 )， 它 得 出 没有 协调 者 消息 的 结论 并 开始 另 
一 次 选举 。 最 终 ，p; 被 选 为 协调 者 (阶段 4)。 

选举 


一 ~ < 
选举 
阶段 1 同和 
pi Me dl ps pa 
经 
选举 选举 
阶段 2 回答 ， 
pi Pp2 ps pa 
超时 
阶段 3 | Wm 
Pi p; ps pa 
最 后 …… 协调 者 
~ Se 
阶段 4 辐 ，. 匡 
pi Pp: ps pa 
最 初 是 ps 出 现 故 障 ， 然 后 是 p; 出 现 故 障 ， 在 这 种 情况 下 ， 选 举 p, 为 协调 者 。 
图 12-8 霸道 算法 


依据 可 靠 消息 传 输 的 假定 ， 该 算法 显然 满足 活性 条 件 E2。 而 且 如 果 没 有 进程 被 替换 ， 算 法 满 
足 条 件 E1。 两 个 进程 不 可 能 都 决定 它们 是 协调 者 ， 因 为 有 较 小 标识 符 的 进程 会 发 现 另 一 进程 的 存 
在 并 服从 于 它 。 
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但 是 ， 如 果 贿 省 的 进程 被 替换 为 具有 相同 标识 符 的 进程 ， 那 么 该 算法 不 能 保证 满足 安全 性 条 
件 E1。 正 在 另 一 个 进程 ( 它 已 经 检测 到 进程 p 崩 澳 ) 已 经 决定 它 有 最 大 的 标识 符 时 ， 替 换 p 的 进程 
可 能 决定 它 有 最 大 的 标识 符 。 两 个 进程 可 能 同时 宣布 它们 自己 为 协调 者 。 遗 憾 的 是 ， 由 于 消息 的 
传输 顺序 没有 保证 ， 这 些 消息 的 接收 者 对 于 谁 是 协调 者 可 能 得 出 不 同 的 结论 。 

此 外 ， 如 果 假 定 的 超时 值 被 证 明 是 不 准确 的 ， 即 如 果 进 程 的 故障 检测 器 是 不 可 靠 的 ， 那 么 条 
件 E1 也 可 能 会 不 成 立 。 

考虑 刚 给 出 的 例子 ， 假 设 六 没有 崩溃 但 运行 异乎 寻常 地 慢 ( 即 系统 同步 的 假定 是 不 正确 的 )， 
或 者 PP: 已 经 崩溃 但 被 替换 。 正 在 ps 发 送 它 的 协调 者 消息 时 ，p，( 或 替换 者 ) 也 做 着 同样 的 事情 。P 
在 发 送 自己 的 协调 者 消息 后 收 到 p; 的 消息 ， 因 此 置 elected, = ps;。 由 于 消息 传输 延迟 不 同 ，pi 在 收 
到 p; 的 协调 者 消息 后 收 到 p; 的 协调 者 消息 ， 因 此 最 终 elected, = p,。 于 是 ,违反 了 条 件 El。 

关于 算法 的 性 能 ， 最 好 情况 是 具有 次 大 标识 符 的 进程 发 现 了 协调 者 的 故障 。 于 是 它 可 以 立即 
选举 自己 并 发 送 N-2 个 协调 者 消息 。 回 转 时 间 是 一 个 消息 。 在 最 坏 情 况 下 ， 霸 道 算法 需要 O(N2) 个 
消息 ， 即 具有 最 小 标识 符 的 进程 首先 检测 到 协调 者 的 故障 。 然 后 N 一 1 个 进程 一 起 开始 选举 ， 每 个 进 
程 都 发 送 消 息 到 有 较 大 标识 符 的 进程 。 


12.4 组 播 通 信 


4.5.1 节 描述 了 IP 组 播 ， 它 是 组 通信 的 一 个 实现 。 组 或 组 播 通信 需要 协调 和 协定 。 目 的 是 使 一 
组 进程 中 的 每 一 个 进程 都 收 到 发 到 组 中 的 、 往 往 带 有 发 送 保 证 的 消息 的 副本 。 此 保证 包括 对 组 中 
每 个 进程 应 当 收 到 的 消息 集合 以 及 在 组 成 员 间 的 发 送 顺 序 的 协定 。 

组 通信 系统 极其 复杂 。 即 使 是 提供 最 小 发 送 保 证 的 IP 组 播 也 需要 很 大 的 工程 上 的 努力 。 时 间 
和 带宽 利用 效率 是 应 该 重点 关注 的 ， 即 使 对 静态 的 进程 组 ， 这 也 是 具有 挑战 性 的 。 当 进程 可 以 在 
任意 时 间 加 入 或 离开 组 时 ， 问 题 会 成 倍增 加 。 

这 里 我 们 研究 成 员 已 知 的 进程 组 的 组 播 通信 。 第 15 章 将 把 研究 扩展 到 成 熟 的 组 通信 ， 包 括 对 
动态 变化 组 的 管理 。 

组 播 通信 是 许多 项 目的 主题 ， 包 括 V- 系 统 [Cheriton and Zwaenepoel 1985]、Chorus [Rozier et 
al. 1988]、Amoeba [Kaashoek et al. 1989, Kaashoek and Tanenbaum 1991]、Trans/Total [Melliar- 
Smith et al. 1990]、Delta-4 [Powell 1991]j、sis [Birman 1993]、Horus [van Renesse et al. 1996].、 
Totem [Moser et al. 1996] 和 Transis [Dolev and Malki 1996]- 一 一 -我们 还 将 在 本 节 中 引用 其 他 著名 的 
工作 。 

组 播 通信 的 基本 特征 是 一 个 进程 只 调用 一 个 组 播 操 作 来 发 送 一 个 消息 给 进程 组 中 的 每 个 进程 
(在 Java 中 这 个 操作 是 aSocket.send(aMessage))， 而 不 是 调用 多 个 针对 单个 进程 的 发 送 操 作 。 与 所 
有 进程 的 一 个 子 组 通信 相对 ， 与 系统 中 所 有 进程 通信 称 为 广播 (broadcast) 。 

用 一 个 组 播 操 作 代替 多 个 发 送 操作 不 止 为 程序 员 提 供 方便 。 它 使 实现 更 为 有 效 ， 并 且 提 供 的 
发 送 保证 强 于 其 他 方式 。 

效率 : 同一 消息 要 发 送 到 组 中 所 有 进程 ， 这 一 信息 让 实现 可 以 有 效 使 用 带宽 。 通 过 发 送 消息 
到 一 个 分 布 树 ， 可 以 想 办 法 使 发 送 消息 到 任何 通信 和 链接 的 次 数 不 超 过 一 次 ， 而 且 在 能 利用 网 络 硬 
件 支 持 的 地 方 可 以 用 硬件 支持 组 播 。 实 现 不 采用 独立 、 上 串 行 的 方式 传输 消息 ， 故 还 能 使 发 送 消息 
到 所 有 目的 地 的 总 时 间 最 少 。 

为 了 了 解 这 些 优点 ， 比 较 下 列 情况 下 带宽 使 用 和 总 传输 时 间 : 从 伦敦 的 一 台 计 算 机 发 送 同 一 
消息 到 位 于 Palo Alto 的 同一 以 太 网 上 的 两 台 计 算 机 ，(1) 通过 两 个 独立 的 UDP 发 送 ，(2) 通过 一 
个 IP 组 播 操 作 。 在 前 一 种 情况 下 ， 消 息 的 两 个 副本 被 独立 发 送 ， 且 第 二 个 副本 还 被 第 一 个 延迟 。 
在 后 一 种 情况 下 ， 消 息 不 是 发 送 两 次 ,而 是 一 组 具有 组 播 功能 的 路 由 器 把 消息 的 一 个 副本 从 伦敦 
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转发 到 目的 地 LAN 的 一 个 路 由 器 上 。 然 后 ， 这 个 路 由 器 利用 硬件 组 播 (由 以 太 网 提供 ) 将 消息 传 
递 到 目的 地 。 

传递 保证 ， 如果 一 个 进程 发 送 多 个 独立 的 发 送 操作 到 独立 的 进程 ， 那 么 实现 就 无 法 提供 能 影 
响 整 个 进程 组 的 发 送 保证 。 如 果 发 送 者 在 发 送 中 途 出 现 故障 ， 组 中 的 一 些 成 员 可 能 收 到 消息 ， 而 
其 他 成 员 则 没收 到 消息 。 而 且 发 送 到 组 中 任何 两 个 成 员 的 两 个 消息 的 相对 顺序 是 未 定义 的 。 在 IP 
组 播 的 情况 下 ， 顺 序 或 可 靠 性 保证 都 没有 提供 。 但 是 可 以 做 出 更 强 的 组 播 保证 ， 我 们 随后 会 定义 。 

系统 模型 ”系统 包含 一 组 进程 ， 它 们 可 以 通过 一 对 一 的 通道 可 靠 地 进行 通信 。 如 前 所 述 ， 进 
程 在 崩溃 时 才 出 现 故 障 。 

进程 是 组 的 成 员 ， 它 们 是 使 用 组 播 操作 发 送 的 消息 的 目的 地 。 通 常 ， 进 程 可 以 同时 是 几 个 组 
的 成 员 是 有 用 的 一 一 例如 ， 进 程 通过 加 入 几 个 组 ， 能 接收 几 个 来 源 的 信息 。 但 是 ， 为 了 简化 顺序 
性 质 的 讨论 ， 我 们 有 时 限制 进程 一 次 最 多 是 一 个 组 的 成 员 。 

操作 multicast(8, m) 发 送 消息 mm 给 进程 组 8 的 所 有 成 员 。 相 应 地 ， 操 作 deliver(m) 传递 由 组 播 
发 送 的 消息 到 调用 进程 。 我 们 使 用 术语 deliver 而 不 是 receive, 以 阐明 组 播 消 息 被 进程 节点 收 到 后 ， 
并 不 总 是 被 提交 到 进程 内 部 的 应 用 层 。 在 随后 讨论 组 播 传递 语义 时 对 此 会 进行 解释 。 

每 个 消息 m 携 带 发 送 它 的 进程 sender(m) 的 唯一 标识 符 和 唯一 目的 组 标识 符 group(m)。 我 们 假 
定 进程 不 会 谎报 消息 的 源 和 目的 地 。 485 

如 果 只 有 组 的 成 员 可 以 组 播 到 该 组 ， 则 该 组 称 为 封闭 的 (参见 图 12-9)。 封 闭 组 中 的 一 个 进程 
会 将 任何 它 组 播 到 组 的 消息 传递 给 它 自 己 。 如 果 组 外 的 进程 也 可 以 向 该 组 发 送 消息 ， 则 称 该 组 是 
开放 的 。(“ 开 放 的 ”和 “封闭 的 ”分 类 也 可 应 用 于 邮件 列表 ， 具 有 相似 的 含义 。) 协作 的 服务 器 相 
互 发 送 只 有 它们 自己 才 应 当 接收 的 消息 ， 这 时 可 以 用 到 进程 的 封 闲 组 。 传 递 事件 到 感 兴趣 的 进程 
组 ， 这 时 可 以 用 到 开放 组 。 


开放 组 





图 12-9 开放 组 和 封闭 组 


一 些 算法 假定 组 是 封闭 的 。 通 过 挑选 组 中 一 员 并 发 送 消 息 给 它 ( 一 对 一 )， 由 它 组 播 到 组 里 ， 
可 以 在 封闭 组 中 达到 开放 组 的 相同 效果 。Rodrigues 等 [1998] 讨论 了 开放 组 的 组 播 问 题 。 


12.4.1 基本 组 播 


拥有 一 个 可 自由 使 用 的 基本 组 播 原 语 是 有 用 的 ， 与 1P 组 播 不 同 ， 该 原 语 保证 ， 只 要 组 播 进程 
不 崩溃 ， 一 个 正确 的 进程 最 终 会 传递 消息 。 我 们 把 这 个 原 语 称 为 B-multicast， 而 与 它 对 应 的 基本 传 
递 原 语 是 B-deliver。 我 们 允许 进程 属于 几 个 组 ， 而 每 个 消息 发 往 某 些 特定 组 。 
实现 B-multicast 的 一 个 简单 方法 是 使 用 一 个 可 靠 的 一 对 一 send 操 作 ， 如 下 : 
B-multicast(g, m): 对 每 个 进程 PEg8，send(p, m)。 
进程 p receive(m) 时 : p 执行 B-deliver(m)。 
为 了 减少 传递 消息 的 总 时 间 ， 实 现 可 以 利用 线程 来 并 发 执行 Send 操 作 。 遗 憾 的 是 ， 如 果 进 程 
数 很 大 ， 这 样 的 实现 会 不 可 靠 ， 很 可 能 出 现 一 种 叫做 确认 爆炸 的 现象 。 作 为 可 靠 send 操 作 的 一 部 分 
发 送 的 确认 很 可 能 从 许多 进程 几乎 同时 到 达 。 进 行 组 播 的 进程 的 缓冲 区 会 很 快 被 填 满 ， 因 此 很 可 
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能 丢掉 确认 消息 。 于 是 进程 会 重新 发 送 消息 ， 导 致 更 多 的 确认 并 浪费 更 多 的 网 络 带宽 。 更 为 实用 
的 基本 组 播 服务 可 以 使 用 IP 组 播 来 构建 ， 请 读者 自行 完成 这 一 服务 。 


12.4.2 可 靠 组 播 

2.3.2 节 定义 了 一 对 进程 之 间 可 靠 的 一 对 一 通信 通道 。 所 要 求 的 安全 性 被 称 为 完整 性 ， 即 任何 
传递 的 消息 与 发 送 的 消息 相同 ， 且 没有 消息 被 传递 两 次 。 所 要 求 的 活性 被 称 为 有 效 性 ， 即 任何 消 
息 最 终 会 被 传递 到 目的 地 (如 果 它 是 正确 的 话 )。 

按照 Hadzilacos 和 Toueg [1994]、Chandra 和 Toueg [1996] 的 研究 成 果 ， 我 们 现在 定义 可 靠 组 播 
以 及 相应 的 操作 R-multicast 和 R-deliver。 在 可 靠 组 播发 送 中 ， 显然 非常 需要 类 似 完整 性 和 有 效 性 的 
性 质 。 但 我 们 还 要 增加 另 一 个 性 质 ， 要求 如 果 组 中 任何 一 个 进程 收 到 一 个 消息 ， 那 么 组 中 所 有 正 
确 的 进程 都 必须 收 到 这 个 消息 。 这 不 是 基于 可 靠 的 一 对 一 发 送 操作 的 B-multicast 算 法 的 性 质 ， 认 识 
到 这 一 点 是 重要 的 。 在 B-multicast 进 行 时 ， 发 送 进程 可 能 在 任何 一 点 出 现 故障 ， 因 此 一 些 进程 可 能 
传递 消息 而 另 一 些 进 程 则 不 传递 消息 。 

一 个 可 靠 组 播 是 满足 以 下 性 质 的 组 播 ， 我 们 先 给 出 这 些 性 质 ， 再 对 这 些 性 质 进行 解释 。 

完整 性 : 一 个 正确 的 进程 p 传 递 一 个 消息 m 至 多 一 次 。 而 且 ，p E group(m) 且 m 由 sender(m) 提 供 
给 一 个 组 播 操 作 。( 与 一 对 一 通信 一 样 ， 消息 总 可 以 通过 一 个 与 发 送 者 相关 的 序号 来 区 别 。) 

有 效 性 : 如 果 一 个 正确 的 进程 组 播 消 息 m， 那 么 它 终 将 传递 m。 

协定 : 如 果 一 个 正确 的 进程 传递 消息 m， 那 么 在 group(m) 中 的 其 他 正确 的 进程 终 将 传递 m。 

完整 性 与 可 靠 的 一 对 一 通信 中 的 完整 性 类 似 。 有 效 性 保证 了 发 送 进程 的 活性 。 这 看 上 去 可 能 
是 一 个 与 众 不 同 的 性 质 ， 因 为 它 是 不 对 称 的 〈 它 只 提 到 某 个 进程 )。 但 是 注意 ， 有 效 性 和 协定 一 起 
得 到 一 个 完整 的 活性 要 求 : 如 果 一 个 进程 (发 送 者 ) 最 终 传 递 了 一 个 消息 m， 那 么 ， 因 为 正确 的 进 
程 在 它们 传递 的 消息 上 是 一 致 的 ， 可 知 m 终 将 被 传递 到 组 中 所 有 正确 的 成 员 。 

按照 自传 递 来 表达 有 效 性 条 件 的 优点 是 简单 。 我 们 需要 的 是 消息 最 终 被 组 中 的 某 个 正确 的 成 
员 传 递 。 

协定 条 件 与 原子 性 相关 ( 即 “ 都 有 或 都 没有 ”的 性 质 )， 原 子 性 用 于 对 组 的 消息 传递 。 如 果 一 
个 组 播 消 息 的 进程 在 传递 消息 之 前 就 崩溃 了 ， 则 这 个 消息 有 可 能 不 被 传递 到 组 中 的 任何 进程 。 但 
如 果 消 息 被 传递 到 某 个 正确 的 进程 ， 则 其 他 所 有 正确 的 进程 都 会 传递 它 。 文 献 中 的 许多 文章 用 术 
语 “ 原 子 的 ”来 包括 一 个 全 排序 条 件 ， 我 们 稍 后 给 出 定义 。 








初始 化 ; 
Received:={}; 

进程 p 为 了 将 R-multicast 消 息 m 发 给 组 g: 
B-multicast(g, m); 1/ pEg 被 作为 目的 地 被 包括 在 内 


在 进程 9 On B-deliver(m 时 ， 其 中 g=grouptoD 
if (m ¥ Received) 
then 
Received := Received U {m} 
iflqg * p)then B-multicast(g, m);,end if 
R-deliver m: 


end if 





图 12-10 可 靠 组 播 算 法 
用 B-multicast 实 现 可 靠 组 播 ” 图 12-10 给 出 了 一 个 使 用 原 语 R-muilticast 和 R-deliver 的 可 靠 组 播 
算法 ， 它 允许 进程 同时 属于 几 个 封闭 的 组 。 为 了 R-multicast 一 个 消息 ,一 个 进程 将 消息 B-multicast 
到 目的 组 中 的 进程 (包括 它 自 己 )。 当 消息 被 B-deliver 时 ， 接 收 者 依次 B-multicast 消 息 到 组 中 (如 
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果 它 不 是 最 初 的 发 送 进 程 )， 然 后 R-deliver 消 息 。 因 为 消息 到 达 的 次 数 可 能 多 于 一 次 ， 所 以 还 要 检 
测 消息 的 副本 且 不 传递 它们 。 

这 个 算法 显然 满足 有 效 性 ， 因 为 一 个 正确 的 进程 终 将 B-deliver 消 息 到 它 自己 。 根 据 B-moulticast 
中 的 通信 通道 的 完整 性 ， 算 法 也 满足 完整 性 。 

每 一 个 正确 的 进程 在 B-deliver 消 息 后 都 B-multicast 该 消息 到 其 他 进程 这 一 事实 可 以 说 明 该 算法 
遵循 协定 。 如 果 一 个 正确 的 进程 没有 R-deliver 消 息 ， 这 只 能 是 因为 它 从 来 没有 B-deliver 此 消息 ， 而 
这 又 只 能 是 因为 没有 其 他 正确 的 进程 B-deliver 此 消息 。 因 此 ， 没 有 进程 会 R-deliver 此 消息 。 

我 们 描述 的 这 个 可 靠 组 播 算法 在 异步 系统 中 是 正确 的 ， 因 为 我 们 没 对 时 间 进 行 假设 。 但 是 ， 
该 算法 从 实用 角度 来 说 是 低 效 的 。 每 个 消息 被 发 送 到 每 个 进程 lgl 次 。 

用 IP 组 播 实 现 可 靠 组 播 ”R-multicast 的 另 一 种 实现 是 将 IP 组 播 、 抄 带 确 认 法 ( 即 确认 附加 在 其 
他 消息 上 ) 和 否定 确认 结合 使 用 。 这 个 R-multicast 协 议 基于 下 述 观 察 , 即 IP 组 播 通 信和 通常 是 成 功 的 。 
在 该 协议 中 ， 进 程 不 发 送 单独 的 确认 消息 ， 而 是 在 发 送 给 组 中 的 消息 中 撒 带 确认 。 只 有 当 进 程 检 
” 测 到 它们 漏 过 一 个 消息 时 ， 它 们 才 发 送 一 个 单独 的 应 答 消 息 。 指 出 一 个 预期 的 消息 没有 到 达 的 应 
答 被 叫 作 否 定 确认 。 

该 描述 假定 组 是 封闭 的 。 每 个 进程 p 为 它 属于 的 组 g 维 持 一 个 序号 5%。 序 号 最 初 为 零 。 每 个 进 
程 还 记录 R?”,， 即 来 自 进 程 q 并 且 发 送 到 组 g 的 最 近 消 息 的 序号 。 

P 要 R-multicast 一 个 消息 到 组 g 时 ， 它 在 消息 上 捕 带 值 5%。 它 还 在 消息 上 撒 带 确认 ，, 形 如 <q, R4%>。 
这 个 确认 给 出 了 一 个 序号 ， 即 自从 发 送 进程 4 上 一 次 组 播 消息 后 ，p 最 近 传 递 的 来 自 进程 q 并 且 发 往 
该 组 g 的 消息 的 序号 。 然 后 ， 组 播 进程 p 把 消息 连同 它 撒 带 的 序号 和 确认 一 起 IP 组 播 到 g, 并且 把 5 
加 一 。 

在 组 播 消息 中 撒 带 的 值 使 接收 者 了 解 到 它们 还 没有 接收 到 的 消息 。 当 且 仅 当 S = R” + 1 一 个 进 
程 R-deliver 一 个 来 自 p 并 发 往 g 且 序号 为 的 消息 ， 
在 传递 后 立即 把 R% 加 一 。 如 果 一 个 到 达 的 消息 
有 S<R”， 那 么 r 已 经 传递 了 它 ， 所 以 丢弃 该 消 
息 。 如 果 5 > R% + 1, 或 对 任意 封闭 的 确认 <g， 
R> 有 R > R,， 说 明 r 已 经 漏 了 一 个 或 多 个 消息 
(在 第 一 种 情况 下 ， 很 可 能 该 消息 已 被 丢弃 )。 它 : 上 
把 满足 8 > R% + 1 的 消息 保留 在 一 个 保留 队列 中 人 时 
(参见 图 12-11) 一 一 这 种 队列 常用 于 提供 消息 传 和 
递 保 证 。 它 通过 发 送 否 定 确认 来 请 求 丢 失 的 消息 。 
它 或 者 发 送 请 求 到 那个 收 到 遗漏 消息 信息 的 进程 ee pe 
9 (这 个 进程 收 到 一 个 确认 <g, R4 >, R' 不 小 于 所 图 12-11 用 于 到 达 的 组 播 消息 的 保留 队列 
要 求 的 序号 ) 或 发 到 最 初 的 发 送 进 程 。 

保留 队列 并 不 是 可 靠 性 必须 的 ， 但 它 简 化 了 协议 ， 使 我 们 能 使 用 序号 来 代表 已 传递 的 消息 集 。 
它 也 提供 了 传递 顺序 保证 ( 见 11.4.3 节 )。 

通过 检测 副本 和 IP 组 播 性 质 (使 用 校 验 和 来 除去 损坏 的 消息 ) 可 以 得 到 完整 性 。 有 效 性 仅 当 IP 
组 播 具 有 该 性 质 时 成 立 。 当 一 致 起 见 ， 我 们 首先 要 求 进程 总 可 以 检测 漏 掉 的 消息 ， 这 又 意味 着 进 
程 会 收 到 又 一 个 消息 ， 使 它 能 够 检测 到 遗漏 。 因 此 ， 只 在 假定 每 个 进程 都 无 限 组 播 消 息 的 情况 下 ， 
这 个 协议 具有 有 效 性 。 其 次 ， 对 任何 消息 ， 只 要 保证 一 个 没有 收 到 该 消息 而 又 需要 它 的 进程 能 够 
得 到 它 的 一 个 副本 ， 就 能 保证 一 致 性 成 立 ， 因 此 我 们 假定 进程 无 限 地 保留 它们 已 传递 消息 的 副本 。 

我 们 为 保证 有 效 性 和 协定 所 作 的 假设 都 是 不 实用 的 (参见 练习 12.14)。 但 是 ， 在 我 们 所 讲述 的 
协议 所 派生 出 的 协议 中 ， 协 定 已 经 被 解决 了 : Psync 协议 [Peterson et al. 1989], Trans 协议 [Melliar- 
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Smith et al. 1990] 和 可 伸缩 的 可 靠 组 播 协议 [Floyd et al. 1997]。 Psync 和 Trans 协议 还 提供 传递 顺序 
保证 。 

统一 性 质 上 面 给 出 的 协定 定义 只 提 到 正确 进程 的 行为 ， 即 进程 从 不 凯 涡 。 请 考虑 如 果 一 个 
进程 不 是 正确 的 ， 并 且 在 R-deliver 一 个 消息 后 崩溃 ， 如 图 12-10 的 算法 会 发 生 什 么 。 由 于 任何 R- 
deliver 消 息 的 进程 必 先 B-multicast 它 ， 可 知 所 有 正确 的 进程 最 终 仍 会 传递 此 消息 。 

无 论 进程 是 否 正 确 都 成 立 的 性 质 称 为 统一 性 质 。 我 们 定义 统一 协定 如 下 : 

统一 协定 : 如 果 一 个 进程 传递 消息 m， 不 论 该 进程 是 正确 的 还 是 出 故障 ， 在 group(m) 中 的 

所 有 正确 的 进程 终 将 传递 mn。 

统一 协定 允许 一 个 进程 在 传递 一 个 消息 后 山 注 ， 同 时 仍然 保证 所 有 正确 的 进程 将 传递 此 消息 。 
我 们 已 经 论证 了 图 12-10 的 算法 满 虽 这 一 性 质 ， 该 性 质 比 前 面 定 义 的 非 统一 协定 更 强 。 

对 于 一 些 应 用 ， 其 中 进程 在 崩溃 前 可 以 采取 行动 产生 一 个 可 观察 的 不 一 致 现象 ， 在 这 种 应 用 
中 ， 统 一 协定 是 有 用 的 。 例 如 ， 考 虑 进程 是 管理 银行 账户 副本 的 服务 器 ， 且 账户 的 更 新 使 用 可 靠 
组 播发 送 到 服务 器 组 的 情况 。 如 果 组 播 不 满足 统一 协定 ， 那 么 就 在 一 个 服务 器 崩溃 前 ， 访 问 该 服 
务 器 的 客户 可 以 观察 到 一 个 其 他 服务 器 都 不 会 处 理 的 更 新 。 

有 趣 的 是 ,在 图 12-10 中 ， 如 果 丰 倒 “R-deliver m” 和 “if (q zp) then B-multicast(g, m); end If ” 
这 两 行 的 顺序 ， 那 么 算法 将 不 满足 统一 协定 。 

正如 协定 有 一 个 统一 的 版 本 一 样 ， 任何 组 播 性 质 也 有 统一 一 的 版 本 ， 包 括 有 效 性 、 完 整 性 和 我 
们 将 要 定义 的 有 序 性 。 


12.4.3 有 序 组 播 


由 于 底层 的 一 对 一 发 送 操作 会 发 生 随 机 延迟 ， 因 此 12.4.1 节 的 基本 组 播 算法 按 任意 顺序 给 进程 
传递 消息 。 这 种 顺序 保证 的 缺少 对 许多 应 用 而 言 都 是 不 能 令 人 满意 的 。 例 如 ， 在 一 个 核电 站 里 ， 
表示 对 安全 条 件 有 威胁 的 事件 和 表示 控制 单元 的 动作 的 事件 能 被 系统 中 的 所 有 进程 以 同样 的 顺序 
观察 到 是 很 重要 的 。 

常见 的 排序 需求 有 全 排序 、 因 果 排 序 、FIFO 排 序 以 及 全 -因果 排序 和 全 --FIFO 排 序 的 混合 。 为 
了 简化 讨论 ， 我 们 在 假定 任何 进程 至 多 属于 一 个 组 的 前 提 下 定义 这 些 排序 。 后 面 我 们 还 将 讨论 允 
许 组 之 间 有 重合 的 情况 。 

FIFO 排 序 : 如 果 一 个 正确 的 进程 发 出 multicast(g， 7 
m)， 然 后 发 出 multicast(g, m'), 那么 每 个 传递 m' 的 正确 
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的 进程 将 在 mm 前 传递 m。 

因果 排序 : 如果 multicast(g, m) 一 multicast(g, my) ， 屎 
其 中 一 是 只 由 g 的 成 员 之 间 发 送 的 消息 引起 的 发 生 在 先 。 记 r, 
关系 ， 那 么 任何 传递 m' 的 正确 的 进程 将 在 m' 前 传递 m。 

全 排序 :如 果 一 个 正确 的 进程 在 传递 m' 前 传递 消 | 


息 m， 那 么 其 他 传递 m' 的 正确 的 进程 将 在 m' 前 传递 m。 0 


因果 排序 隐 含 FIFO 排 序 ， 因 为 同一 进程 的 任何 两 。 c， 辐 
个 组 播 都 被 发 生 在 先 关系 联系 起 来 。 注 意 ，FIFO 排 序 
和 因果 排序 都 只 是 偏 序 ， 一般 地 ， 不 是 所 有 的 消息 都 


Pl Pp, P, 
由 同一 进程 发 送 。 同 样 地 ， 一 些 组 播 是 并 发 的 (不 是 图 1212 组 括 消 各 的 全 指 序 。RIFO 
按 发 生 在 先 关系 排序 )。 排序 和 因果 排序 
注意 ， 例 排序 的 消息 7, 和 7,，FIFO 关 系 的 消息 F， 
和 所 和 因果 关系 的 消息 C1 和 C; 之 间 一 至 的 排序 ， 以 及 消息 的 其 他 随机 传递 顺序 。 
图 12-12 说 明了 3 个 进程 的 排序 。 仔 细 观 察 图 可 发 现 ， 全 排序 消息 的 传递 顺序 与 它们 被 发 送 的 
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物理 时 间 的 顺序 相反 。 事 实 上 ， 全 排序 的 定义 允许 消息 的 传递 可 以 随机 排序 ， 只 要 该 顺序 在 不 同 
进程 中 是 一 样 的 即 可 。 因 为 全 排序 不 必 同 时 也 是 FIFO 或 因果 排序 ， 我 们 把 FIFO 一 全 的 混合 排序 定 
义 为 消息 传递 既 遵 守 FIFO 也 遵守 全 排序 的 排序 。 同 样 地 ， 在 因果 一 全 排序 下 ， 消 息 传递 既 遵 守 因 
果 排 序 也 遵守 全 排序 。 

有 序 组 播 的 定义 并 不 假定 或 隐 含 可 靠 性 。 例 如 ， 读 者 可 以 证 明 ， 在 全 排序 下 ， 如 果 正 确 的 进 
程 p 传 递 消息 m 然 后 传递 m'， 那 么 正确 的 进程 q 可 以 传递 m 而 不 传递 m' 或 排 在 m 后 的 任何 消息 。 

我 们 也 可 以 构造 有 序 的 和 可 靠 的 混合 协议 。 一 个 可 靠 的 全 排序 的 组 播 在 文献 中 常 被 称 为 原子 
组 播 。 同 样 地 ， 我 们 可 以 构造 可 靠 的 FIFO 组 播 、 可 靠 的 因果 组 播 和 混合 排序 组 播 的 可 靠 版 本 。 

正如 我 们 将 看 到 的 那样 ， 对 组 播 消息 的 传递 排序 在 传递 延迟 和 带宽 消耗 方面 是 昂贵 的 。 我 们 
已 描述 的 排序 语义 可 能 会 不 必要 地 延迟 消息 的 传递 ， 即 在 应 用 层 ， 一 个 消息 可 能 因为 另 一 个 它 事 
实 上 不 依赖 的 消息 而 被 延迟 。 因 此 ， 一 些 人 提出 了 只 用 应 用 特定 的 消息 语义 来 确定 消息 传递 的 顺 
序 的 组 播 系统 [Cheriton and Skeen 1993, Pedone and Schiper 1999]。 

公告 牌 的 例子 ”为 使 组 播 传递 语义 更 具体 ， 考 











虑 用 户 张贴 消息 到 公告 牌 的 应 用 。 每 个 用 户 运行 一 个 的 全 人 
公告 牌 应 用 进程 。 每 个 讨论 的 主题 有 自己 的 进程 组 。 A 

当 一 个 用 户 将 - -个 消息 张贴 到 一 个 公告 牌 时 ， 应 用 进 G. Joseph Microkernels 
程 把 用 户 的 张贴 组 播 到 相应 的 组 。 每 个 用 户 的 进程 是 A. Hanlon Re: Microkernels 
他 或 她 感 兴趣 的 主题 的 组 的 成 员 ， 所 以 用 户 只 收 到 关 T.L'Heureux RPC performance 
于 这 个 主题 的 张贴 。 M. Walker Re: Mach 








如 果 每 个 用 户 最 终 要 收 到 每 个 张贴 ， 就 需要 可 
靠 的 组 播 。 用 户 也 有 排序 的 需求 ， 图 12-13 给 出 了 出 图 12-13 公告 牌 程序 的 显示 
现在 某 个 用 户 面前 的 张贴 。 至 少 需 要 FIFO 排 序 ， 

为 这 样 才能 使 用 户 可 以 按 同 样 的 顺序 收 到 来 自 一 个 给 定 用 户 ( 比 如 “A.Hanlon”) 的 每 一 个 张贴 ， 
用 户 才 可 以 一 致 地 讨论 A.Hanlon 的 第 二 个 张贴 。 

注意 ， 主 题 为 “Re:Microkernels”(25) 和 “Re:Mach”(27) 的 消息 出 现在 它们 引用 的 消息 之 后 。 
为 保证 这 种 关系 ， 需 要 因果 排序 的 组 播 。 否 则 ， 随 机 的 消息 延迟 可 能 会 造成 消息 “Re:Mach” 出 现 
在 关于 Mach 最 初 的 消息 之 前 。 

如 果 组 播 传 递 是 全 排序 的 ， 那 么 左边 一 栏 的 编号 在 用 户 之 间 是 一 致 的 。 用 户 可 以 无 二 义 地 谈 
及 某 个 消息 ， 如 “消息 24”。 

实际 上 ，USENET 公 告 牌 系统 既 未 实现 因果 排序 也 未 实现 全 排序 。 在 大 范围 内 实现 这 些 排序 
的 通信 代价 超过 了 实现 排序 所 带 来 的 好 处 。 

实现 FIFO 排 序 FIFO 排序 的 组 播 (具有 FO-multicast 和 FO-deliver 操 作 ) 可 以 用 顺序 号 实现 ， 
就 像 我 们 在 一 对 一 通信 中 实现 的 那样 。 我 们 只 考虑 非 重 又 组 的 情况 。 读 者 可 以 验证 ，12.4.2 节 中 我 
们 在 IP 组 播 之 上 定义 的 可 靠 组 播 也 保证 了 FIFO 排 序 ， 但 我 们 将 展示 如 何在 给 定 的 任何 基本 组 播 之 
上 构造 FIFO 排 序 的 组 播 。 我 们 使 用 12.4.2 节 可 靠 组 播 协议 中 进程 p 的 变量 9 和 R4，8 是 进程 p 已 发 送 
到 8 的 消息 个 数 ，R9% 是 p 已 传递 的 来 自 进程 9 并 且 发 往 组 8 的 最 近 的 消息 的 序号 。 

P 要 FO-multicast 一 个 消息 到 组 8 时 ， 它 在 消息 上 撒 带 值 ， 接 着 B-multicast 消 息 到 g， 然后 把 55 
加 1。 当 收 到 来 自 4 的 序号 为 8 的 消息 时 ，p 检 查 是 否 5 = Re + 1。 如 果 满足 该 条 件 ， 说 明 这 个 消息 是 
预期 的 来 自发 送 进程 4 的 下 一 个 消息 ，P FO-deliver 该 消息 ， 并 且 置 Re :=S。 如 果 8 > Re + 1， 它 把 
消息 放 到 保留 队列 中 ， 直 到 介 于 其 间 的 消息 已 被 传递 且 5S = R?,+ 1 为 止 。 

因为 来 自 一 个 给 定 发 送 进程 的 所 有 消息 以 同样 的 次 序 传递 ， 并 且 消 息 的 传递 被 延迟 直到 到 达 
该 序号 ， 显然 FIFO 排 序 的 条 件 已 满足 。 但 是 这 仅 在 组 不 重 又 的 假设 下 成 立 。 

注意 ， 在 这 个 协议 中 ， 可 以 使 用 B-multicast 的 任何 实现 。 而 且 ， 如 果 用 可 靠 的 R-multicast 代 替 
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B-multicast， 则 可 以 获得 可 靠 的 FIFO 组 播 。 
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实现 全 排序 “实现 全 排序 的 基本 途径 是 为 组 播 消息 指定 全 排序 标识 符 ， 以 便 每 个 进程 可 以 基 
于 这 些 标识 符 做 出 相同 的 排序 决定 。 传 递 算法 与 我 们 描述 的 用 于 FIFO 排 序 的 算法 很 相似 ， 区别 是 


进程 保持 组 特定 的 序号 ， 而 不 是 进程 特定 
的 序号 。 我 们 只 考虑 如 何 对 发 送 到 非 重 又 
组 的 消息 进行 全 排序 。 我 们 把 这 类 组 播 操 
作 称 为 TO-multicast 和 TO-deliver。 

我 们 讨论 为 消息 指定 标识 符 的 两 种 主 
要 方法 。 第 一 种 方法 是 由 一 个 叫做 顺序 者 
的 进程 来 指定 标识 符 ( 见 图 12-14)。 一 个 
要 TO-multicast 消 息 m 到 组 g 的 进程 把 一 个 
唯一 的 标识 符 id (m) 附 加 到 消息 上 。 发 往 g 
的 消息 在 被 发 送 到 8 的 成 员 的 同时 ， 也 被 发 
送 到 8 的 顺序 者 sequencer(8)。( 顺 序 者 可 以 
是 8 的 一 个 成 员 。) 进程 sequencer(g) 维 护 一 
个 组 特定 的 序号 s,。， 用 来 给 它 B-deliver 的 消 
息 指定 连续 的 且 不 断 增 加 的 序号 。 它 通过 
给 g 发 送 B-multicast 顺 序 消息 来 宣布 序号 
( 详 见 图 12-14)。 


1. 组 成 员 p 的 算法 
初始 化 : rs:=0， 
为 了 给 组 8 发 TO-multicast 消息 : 
B-multicast(g U {sequencer(g)}, <m,i>); 
在 B-deliver(<m,i>) 时 ， 其 中 g=group(m) 
将 <m,i> 放 在 保留 队列 中 ， 
在 B-deliver(M。 se = <“order”,i,s>) 上 时， 其 中 g=group(Mowaer) 
Wait until <m,i> 在 保留 队列 中 并 且 S=r,; 
TO-deliver m;// 在 从 保留 队列 中 删除 它 之 后 


re=S+1; 


2. 顺 序 者 g 的 算法 

初始 化 : Se:=0; 

在 B-deliver(<m,i>) 时 ， 其 中 g=group(m) 
B-multicast(g,<"“order”,i,se>); 





Se:=Sgt1; 


图 12-14 使 用 顺序 者 的 全 排序 


一 个 消息 将 一 直 保留 在 保留 队列 中 ， 直 到 它 依 照相 应 的 序列 号 可 以 被 TO-deliver 为 止 。 因 为 序 
号 是 (被 顺序 者 ) 明确 定义 的 ， 所 以 满足 全 排序 的 标准 。 而 且 ， 如 果 进 程 使 用 B-multicast 的 一 个 
FIFO 排 序 的 变种 ， 则 全 排序 的 组 播 也 是 因果 序 的 。 证 明 的 过 程 请 读者 自行 完成 。 

基于 顺序 者 的 方案 有 一 个 明显 的 问题 ， 即 顺序 者 会 成 为 瓶颈 ， 并 且 是 一 个 关键 的 故障 点 。 有 


一 些 解 决 故 障 问题 的 实用 算法 。Chang and Maxemchunk [1984] 首先 提出 了 一 个 使 用 一 个 顺序 者 
(它们 称 为 令 牌 场地 ) 的 组 播 协议 。Kaashoek 等 人 [1989] 为 Amoeba 系 统 开发 了 一 个 基于 顺序 者 的 
协议 。 这 些 协议 保证 一 个 消息 被 传递 前 保留 在 f+ 1 个 节点 的 保留 队列 中 ， 因 此 可 以 容忍 多 达 f 个 
故障 。 像 Chang 和 Maxemchunk 一 样 ，Birman 等 人 [1991] 也 使 用 一 个 令 牌 保留 场地 作为 顺序 者 。 令 
牌 可 以 在 进程 之 间 传 递 ， 这 样 ， 如 果 只 有 一 个 进程 发 送 全 排序 组 播 ， 那 么 这 个 进程 可 以 作为 顺序 
者 ， 从 而 减少 通信 。 

Kaashoek 等 人 的 协议 使 用 基于 硬件 的 组 播 
《如 可 在 以 太 网 上 用 的 ) ， 而 不 是 可 靠 的 点 对 点 
通信 。 在 他 们 的 协议 的 最 简单 的 变种 里 ， 进 程 
把 要 组 播 的 消息 一 对 一 发 送 到 顺序 者 。 顺 序 者 
把 消息 本 身 连同 标识 符 和 序号 一 起 组 播 。 这 样 
做 的 优点 是 组 中 其 他 成 员 每 次 组 播 只 接收 一 个 
消息 ， 但 缺点 是 带宽 的 使 用 增加 。 完 整 的 协议 
描述 见 www.cdk4.net/coordination。 

实现 全 排序 组 播 的 第 二 种 方法 是 一 种 进程 
以 分 布 式 方式 集体 地 对 分 配给 消息 的 序号 达成 
一 致 的 方法 。 一 个 简单 的 算法 一 一 与 最 初 为 
ISIS 工 具 包 开发 的 实现 全 排序 的 组 播 传递 的 算 WA 
法 [Birman and Joseph 1987a] 类 似 一 一 如 图 12-15 所 示 。 它 也 是 由 一 个 进程 把 消息 B-multicast 到 组 
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成 员 。 组 可 以 是 开放 或 封闭 的 。 当 消息 到 达 时 ， 接 收 进程 提出 消息 的 序号 ， 并 把 它们 返回 给 发 送 
者 ， 后 者 用 这 些 顺 序数 来 产生 协定 的 序号 。 

组 8 中 的 每 个 进程 qg 保 存 44 ( 即 它 迄 今 为 止 从 组 8 观察 到 的 最 大 的 协定 序号 ) 和 Ps ( 即 它 自己 提 
出 的 最 大 序号 )。 进 程 p 组 播 消息 m 到 组 g 的 算法 如 下 : 

1) p B-multicast <m, i> 到 8g， 其 中 i 是 m 的 一 个 唯一 的 标识 符 。 

2) 每 个 进程 q 回 答 发 送 者 p， 提 议 P4 := Max (44, P93) +1 为 此 消息 的 协定 序号 。 实 际 上 ， 在 提议 
的 以 里 必须 包括 进程 标识 符 以 保证 全 排序 ， 否 则 ， 不 同 的 进程 可 能 提议 相同 的 整数 值 。 但 为 简单 
起 见 我 们 在 这 里 不 这 样 做 。 每 个 进程 临时 把 提议 的 序号 分 配给 消息 ， 并 把 消息 放 入 它 的 保留 队列 
中 ， 保 留 队 列 是 按照 最 小 的 序号 在 队 首 的 方式 排序 。 

3) Pp 收集 所 有 提议 的 序号 ， 并 选择 最 大 的 数 a 作 为 下 一 个 协定 序号 。 然 后 ， 它 B-multicast < 心 
4a> 到 8。8 中 每 个 进程 9 置 44: = Max(4%, a)， 并 把 4a 附 加 到 (标识 符 为 的 ) 消息 上 。 如 果 协 定 序号 与 
提议 的 序号 不 一 样 , 它 把 保留 队列 中 的 消息 重新 排序 。 当 在 保留 队列 队 首 的 消息 被 赋予 协定 序号 时 ， 
它 被 转移 到 传递 队列 的 队 尾 。 但 是 ， 已 被 赋予 协定 序号 、 但 不 在 保留 队列 队 首 的 消息 不 被 转移 。 

如 果 每 个 进程 同意 同一 组 序号 ， 并 按 相应 的 顺序 传递 它们 ， 那 么 满足 全 排序 。 显 然 ， 正 确 的 
进程 最 终 会 对 同一 组 序号 达成 一 致 ， 但 我 们 必须 指出 ， 序 号 是 单调 递增 的 ， 并 且 正 确 的 进程 不 能 
过 早 地 传递 消息 。 

假定 给 消息 mi 指派 了 一 个 协定 序号 ， 并 已 到 达 保 留 队列 的 队 首 。 根 据 构造 规则 ， 在 这 阶段 以 
后 收 到 的 消息 将 在 (也 应 在 ) mm 后 传递 ， 它 将 有 一 个 比 m, 大 的 提议 序号 ， 因 此 也 有 一 个 比 mi 大 的 
协定 序号 。 这 样 ， 令 ms 是 尚未 指定 协定 序号 、 但 在 同一 队列 中 的 其 他 消息 。 根 据 刚 给 出 的 算法 ， 
我 们 有 : 

agreedSequence(m;) >proposedSequence(m,) 
因为 mi 在 队 首 : 

proposedSequence(m,)>agreedSequence(m,) 
所 以 : 

agreedSequence(m,)>agreedSequence(m,) 

这 样 ， 全 排序 得 到 了 保证 。 

这 个 算法 比 基 于 顺序 者 的 组 播 有 更 大 的 延迟 : 在 一 个 消息 被 传递 前 ， 发 送 者 和 组 之 间 要 惠 行 
发 送 3 个 消息 。 

福 意 ， 这 个 算法 选择 的 全 排序 并 不 保证 因果 或 FIFO 序 ， 受 通信 延迟 的 影响 ， 任 意 两 个 消息 被 
按 着 本 质 上 随机 的 全 排序 来 传递 。 

实现 全 排序 的 其 他 方法 见 Melliar-Smith 等 人 [1990]、Garcia-Molina 和 Spauster [1991] 和 
Hadzilacos、Toueg [1994] 的 文章 。 

实现 因果 排序 图 12-16 给 出 了 一 个 非 重 又 封闭 组 的 算法 ， 该 算法 基于 Birman 等 人 [1991] 开 发 
的 算法 ， 其 中 因果 序 组 播 操作 是 CO-multicast 和 CO-deliver。 该 算法 只 考虑 由 组 播 消 息 建立 的 发 生 
在 先 关系 。 如 果 进 程 互 相 发 送 一 对 一 消息 ， 那 么 这 些 进程 将 不 会 被 考虑 。 

每 个 进程 P (i = 1, 2, …, N) 维 护 自 己 的 时 间 改 向 量 ( 见 11.4 节 )。 时 间 戳 的 分 量 记 录 来 自 每 个 进 
程 的 发 生 在 下 一 个 要 组 播 的 消息 之 前 的 组 播 消息 数 。 

为 了 CO-multicast 一 个 消息 到 组 g， 进 程 在 时 间或 的 相应 分 量 上 加 1， 并 且 把 消息 和 时 间 惟 B- 
mujticast 到 sg 。 

当 进 程 P  B-deliver 来 自己 的 一 个 消息 时 ， 它 必须 在 它 能 CO-deliver 该 消息 前 ， 把 消息 放 入 保留 
队列 中 ， 直 到 可 以 保证 它 已 经 传递 了 按 因果 关系 在 该 消息 前 的 任何 消息 。 为 实现 这 个 目的 ，P 会 
一 直 等 待 ， 直 到 (1) 它 已 传递 了 由 户 发 送 的 任何 较 早 的 消息 ，(2) 它 已 传递 了 p 在 组 播 该 消息 时 
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已 传递 的 任何 消息 。 这 些 条 件 都 可 以 通过 检查 时 间 惟 来 检测 ， 参 见 图 12-16。 注 意 ， 一 个 进程 可 以 
把 它 CO-multicast 的 任何 消息 立即 CO-deliver 到 它 自己 ， 虽 然 在 图 12-16 中 没有 描述 这 一 点 。 


对 组 成 员 p，(i=1,2,...,N) 的 算法 
初始 化 : 
VDj]:=00=1.2,....,N); 
为 了 给 组 g 发 CO-multicast 消 息 m: 
Valil:= VS +l; 
B-multicast(g,< Vi,m>): 
作 B-deliver(<Vi.m>) 来 自 pjG 关 i) 的 一 个 消息 时 ,其 中 g=group(m) : 
将 <Vim> 放 入 保留 队列 ， 直 到 Vi [l= ViBl+ 1 和 Vi[k]< Vi[k| (kz)); 
CO-deliver m; // 在 把 它 从 保留 队列 中 删除 后 
VADl:= Vl +1， 















图 12-16 使 用 时 间 截 向 量 的 因果 排序 


每 个 进程 在 传递 消息 时 ， 要 更 新 它 的 向 量 时 间 发 ， 以 维护 按 因果 关系 在 先 的 消息 计数 。 它 是 
通过 把 时 间 葵 的 第 /个 分 量 加 一 来 做 到 这 一 点 的 。 这 是 对 11.4 节 更 新 向 量 时 钟 的 规则 里 出 现 的 合并 
操作 的 一 种 优化 。 考 虑 到 图 12-16 的 算法 中 传递 条 件 保 证 只 有 第 /个 分 量 会 增加 ， 我 们 可 以 做 到 这 
种 优化 。 

我 们 概述 此 算法 的 正确 性 证 明 如 下 。 假 设 multicast(g, m) 一 multicast(g, m')。 令 V 和 V 分 别 是 mm 
和 mm' 的 向 量 时 间 惟 。 从 算法 可 以 直接 地 归纳 证 明 V < V'。 特 别 地 ， 如 果 进 程 p, 组 播 m， 那 么 V[]< 
V'[Kk], 

落 虑 当 某 个 正确 的 进程 P B-deliver m' (与 CO-deliver 相 反 ) 但 没有 人 先 CO-deliver m 时 会 发 生 什 
么 。 根 据 算法 ， 仅 当 p, 传递 一 个 来 自 庆 的 消息 时 ，Vi [如 可 以 加 1。 但 p; 还 没有 收 到 m， 因 此 Vi [A 的 
增长 不 可 能 超过 V[K] 一 1。 于 是 p, 不 可 能 CO-deliver m'， 因 为 需要 满足 V Lk] 之 V'[K]， 这 样 的 话 ， 就 
会 有 Vi{K] 之 VIK]。 

读者 应 该 能 证 明 ， 如 果 用 可 靠 的 R-multicast 原 语 替换 B-multicast, 能 得 到 既 可 靠 又 是 因果 序 的 
组 播 。 

此 外 ， 如 果 把 因果 组 播 协 议和 基于 顺序 者 的 全 排序 传递 协议 结合 起 来 ， 那 么 我 们 就 得 到 既是 
全 排序 义 是 因果 序 的 消息 传递 。 顺 序 者 根据 因果 序 传递 消息 ， 并 按 收 消息 的 次 序 组 播 消息 的 序号 。 
目的 组 中 进程 直到 收 到 了 来 自 顺 序 者 的 排序 消息 ， 并 且 消 息 是 传递 队列 中 的 下 一 个 消息 时 ， 才 发 
送 此 消息 。 

因为 顺序 者 按 因果 序 传递 消息 ， 并 且 所 有 其 他 进程 按 与 顺序 者 相同 的 顺序 传递 消息 ， 因 此 确 
实 既是 全 排序 又 是 因果 序 。 

组 重生 ”在 FIFO、 全 排序 和 因果 排序 语义 的 定义 和 相关 算法 中 ， 我 们 只 考虑 非 重 一 的 组 。 这 
样 简化 了 问题 ， 但 并 不 能 令 人 满意 ， 因 为 进程 一 般 会 成 为 多 个 重 全 组 的 成 员 。 例 如 ， 一 个 进程 可 
能 对 来 自 多 个 来 源 的 事件 感 兴趣 ， 并 因此 要 加 入 事件 分 发 组 的 相应 集合 。 

我 们 可 以 把 排序 定义 扩展 为 全 局 排序 [Hadzilacos and Toueg 1994], 其 中 我 们 必须 考虑 如 果 消 
息 m 被 组 播 到 gs， 且 消 息 m' 被 组 播 到 g'， 则 两 个 消息 被 发 到 g ng 的 成 员 。 

全 局 FIFO 排 序 ， 如 果 一 个 正确 的 进程 发 出 multicast(g, m)， 然 后 发 出 multicast(g', m”)， 则 g 由 g 
中 的 每 一 个 传递 m' 的 正确 的 进程 将 在 m' 前 传递 m。 

全 局 的 因果 排序 . 如 果 multicast(g, m) 一 multicast(g, m')， 其 中 一 是 任何 组 播 消 息 链 都 包含 的 发 
生 在 先 关系 ， 则 g Ng' 中 的 任何 传递 m' 的 正确 的 进程 将 在 m' 前 传递 m。 

进程 对 的 全 排序 :如果 一 个 正确 的 进程 在 传递 发 送 到 g' 的 消息 m' 前 传递 了 发 送 到 g 的 消息 m， 
则 8 Ng' 中 的 任何 传递 m' 的 其 他 正确 的 进程 将 在 m' 前 传递 m。 
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全 局 的 全 排序 : 令 “<” 是 传递 事件 之 间 的 排序 关系 。 我 们 要 求 “<” 遵 守 进 程 对 的 全 排序 ， 
并 且 无 环 一 一 在 进程 对 的 全 排序 下 ,“<” 默 认 不 是 无 环 的 。 

实现 这 些 排序 的 一 种 方法 可 能 是 组 播 每 个 消息 m 到 系统 中 所 有 进程 的 组 。 每 个 进程 根据 消息 是 
否 属于 group(m) 来 放弃 或 传递 消息 。 这 是 一 个 低 效 的 并 不 令 人 满意 的 实现 : 除了 目的 组 的 成 员 以 外 ， 
组 播 应 该 涉及 尽 可 能 少 的 进程 。 在 Birman 等 人 [1991]、Garcia-Molina 和 Spauster [1991]、 
Hadzilacos 和 Toueg [1994]、Kindberg [1995]、Rodrigues 等 人 [1998] 的 文章 中 研究 了 其 他 的 方法 。 

在 同步 和 异步 系统 中 的 组 播 ”本 节 描 述 了 可 靠 的 无 序 组 播 、( 可 靠 的 ) FIFO 序 的 组 播 、( 可 靠 
的 ) 因果 序 组 播 和 全 排序 组 播 的 算法 。 我 们 还 指出 如 何 实现 既是 全 排序 又 是 因果 序 的 组 播 。 我 们 
把 既 保 证 FIFO 序 又 保证 全 排序 的 组 播 原 语 的 算法 的 设计 留 给 读者 自行 完成 。 我 们 描述 的 所 有 算法 
在 异步 系统 中 都 能 正常 工作 。 

然而 ， 我 们 没有 给 出 一 个 既 保证 可 靠 传递 又 保证 全 排序 传递 的 算法 。 虽 然 看 起 来 有 点 令 人 惊 
奇 ， 但 具有 这 些 保证 的 协议 在 同步 系统 中 是 可 能 的 同时 ， 在 异步 的 分 布 式 系统 中 是 不 可 能 的 一 一 
即使 是 一 个 在 最 坏 情 况 下 忍受 单个 进程 崩溃 故障 的 协议 。 我 们 将 在 下 节 讨 论 这 一 问题 。 


12.5 共识 和 相关 问题 


本 市 介绍 共识 问题 [Pease et al. 1980, Lamport et al. 1982]，、 相 关 的 拜占庭 将 军 和 交互 一 致 性 问 
题 。 我 们 把 这 些 问 题 统称 为 协定 。 粗 略 地 说 ， 该 问题 是 在 一 个 或 多 个 进程 提议 了 一 个 值 应 当 是 什 
么 后 ， 使 进程 对 这 个 值 达成 一 致意 见 。 

例如 ， 第 2 章 描述 了 一 种 两 个 部 队 要 对 进攻 或 撤退 达成 一 致意 见 的 情形 。 类 似 地 ， 我 们 要 求 ， 
在 每 一 个 计算 机 提议 了 一 个 动作 后 ， 控 制 飞船 引擎 的 所 有 正确 的 计算 机 要 决定 “继续 ”还 是 “ 放 
弃 "。 在 把 一 笔 资 金 从 一 个 账户 转 到 另 一 账户 的 事务 里 ， 涉 及 的 计算 机 必须 对 相应 的 借 、 贷 动作 达 
成 一 致 。 在 互 斥 中 ， 进 程 对 哪个 进程 可 以 进入 临界 区 达成 协定 。 在 选举 中 ， 进 程 对 当选 进程 达成 
协定 。 在 全 排序 组 播 中 ， 进 程 对 消息 传递 顺序 达成 协定 。 

适合 这 几 类 协定 的 协议 是 存在 的 。 我 们 描述 了 其 中 的 一 些 协议 ， 在 第 13 章 和 第 14 章 还 会 研究 
事务 。 但 是 ， 考 虑 协定 的 更 一 般 形 式 ， 探 索 共 同 的 特点 和 解决 方案 ， 对 我 们 是 有 用 的 。 

本 节 将 更 精确 地 定义 共识 以 及 与 它 相关 的 3 个 协定 问题 : 拜占庭 将 军 、 交 互 一 致 性 和 全 排序 组 
播 问题 。 接 下 来 ， 我 们 研究 在 什么 情况 下 这 些 问 题 可 得 到 解决 ， 并 概述 一 些 解决 方案 。 特 别 地 ， 
我 们 将 讨论 众所周知 的 Fischer 等 人 [1985] 的 不 可 能 性 结果 ， 它 声明 在 异步 系统 中 ， 即 使 进程 组 只 
含有 一 个 有 错 进程 也 不 能 保证 达成 共识 。 最 后 ， 我 们 考虑 在 有 不 可 能 性 结果 情况 下 的 实用 算法 。 
12.5.1 系统 模型 和 问题 定义 

我 们 的 系统 模型 包括 一 组 通过 消息 传递 进行 通信 的 进程 p, (i = 1,2,…,N)。 在 许多 实际 情况 下 ， 
一 个 重要 的 要 求 是 ， 即 使 有 故障 也 应 能 达成 共识 。 如 前 所 述 ， 我 们 假设 通信 是 可 靠 的 ， 但 是 进程 
可 能 出 现 故障 。 本 节 将 考虑 拜占庭 (随机 ) 进程 故障 以 及 崩溃 故障 。 我 们 有 时 假设 N 个 进程 中 至 多 
有 /个 是 有 错 的 ， 即 它们 有 具有 某 种 类 型 的 错误 ， 其 余 的 进程 是 正确 的 。 

如 果 出 现 随机 故障 ， 那 么 刻画 系统 的 另 一 因素 是 进程 是 否 对 它们 发 送 的 消息 进行 数字 签名 ( 参 
见 7.4 节 )。 如 果 进 程 对 它们 的 消息 签名 ， 那 么 一 个 故障 进程 可 能 造成 的 伤害 就 受到 限制 。 特 别 地 ， 
在 一 个 协定 算法 过 程 中 ， 它 对 一 个 正确 的 进程 发 送 给 它 的 值 不 会 做 出 错误 的 断言 。 当 我 们 讨论 拜 占 
庭 将 军 问题 的 解 时 ， 消 息 签 名 的 相关 性 将 变 得 更 为 清楚 。 默 认 情 况 下 ， 我 们 假设 不 进行 签名 。 

共识 问题 的 定义 ”为 达到 共识 ， 每 个 进程 p, 最 初 处 于 未 决 状态 ， 并 且 提 议 集合 D 中 的 一 个 值 v， 
(i= 1, 2, …, 和 )。 进 程 之 间 互 相通 信 ， 交 换 值 。 然 后 ， 每 个 进程 设置 一 个 决定 变量 di (i = 1, 2,…, NN) 
的 值 。 在 这 种 情况 下 ， 它 进入 决定 状态 。 在 此 状态 下 ， 它 不 再 改变 di (i = 1, 2, … N)。 图 12-17 给 出 
了 参与 一 个 共识 算法 的 3 个 进程 。 两 个 进程 提议 “继续 "， 第 三 个 进程 提议 “放弃 ”但 随后 崩溃 。 
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保持 正确 的 两 个 进程 都 决定 “继续 ”。 
共识 算法 的 要 求 是 在 每 次 执行 中 注 足 以 下 条 件 : 
终止 性 : 每 个 正确 进程 最 终 设置 它 的 决定 变量 。 
协定 性 : 所 有 正确 进程 的 决定 值 都 相同 : 如 果 p， di:=proceed dy:=proceed 


pb 


/eee 


1,2,.%, N), Vi= ee 
完整 性 ， 如 果 正确 的 进程 都 提议 同一 个 值 ， 那 么 ee 
处 于 决定 状态 的 任何 正确 进程 已 选择 了 该 值 。 
根据 应 用 的 不 同 , 完整 性 定义 可 以 有 变化 。 例如， 
一 种 较 弱 的 完整 性 是 决定 值 等 于 某 些 正 确 进程 提议 的 






值 ， 而 不 必 是 所 有 进程 提议 的 值 。 我 们 将 使 用 上 面 的 caon | 

定义 。 
为 理解 问题 的 表达 是 如 何 翻 译 为 算法 的 ， 考 虑 进 > A 

程 不 出 现 故 障 的 一 个 系统 。 这 时 ， 解 决 共识 是 比较 简 

单 的 。 例 如 ， 我 们 可 以 把 进程 集中 为 一 组 ， 并 让 每 个 图 12-17 3 个 进程 的 共识 


进程 可 靠 地 将 它 提 议 的 值 组 播 到 组 中 的 成 员 。 每 个 进 

程 等 待 ， 直 到 它 收 集 到 N 个 值 (包括 它 自己 的 ) 为 止 。 然 后 它 计算 函数 majority(y,, v2,…, vw)， 该 函 
数 返 回 它 的 参数 中 出 现 最 多 的 值 ， 如 果 没 有 ， 返 回 特殊 值 LED。 终 止 性 由 组 播 操 作 的 可 靠 性 保证 。 
协定 性 和 完整 性 由 majority 的 定义 和 可 靠 组 播 的 完整 性 保证 。 每 个 进程 收 到 相同 的 提议 值 集合 ， 并 
且 每 个 进程 计算 这 些 值 上 的 相同 函数 。 因 此 它们 一 定 一 致 ， 并 且 如 果 每 个 进程 提议 相同 的 值 ， 那 
么 它们 都 决定 这 个 值 。 

值得 注意 的 是 ， 这 些 进程 为 了 从 候选 值 中 选 出 一 个 共同 认可 的 值 可 以 采用 很 多 函数 ，majority 
只 是 其 中 之 一 。 例 如 ， 如 果 那 些 值 是 有 序 的 ， 那 么 函数 minimum、maximum 也 是 合适 的 函数 。 

如 果 进 程 可 能 崩溃 ， 那 么 就 会 给 检测 故障 带 来 复杂 性 ， 共 识 算法 的 执行 是 否 能 够 终止 并 不 是 
马上 就 能 得 出 的 。 事 实 上 ， 如 果 系 统 是 异步 的 ， 它 可 能 不 会 终止 。 我 们 稍 后 再 讨论 这 个 问题 。 

如 果 进 程 以 随机 (拜占庭 ) 方式 出 现 故障 ， 那 么 出 错 的 进程 原则 上 可 以 向 其 他 进程 发 送 任何 
数据 。 虽 然 在 实际 中 这 看 起 来 不 太 可 能 ， 但 是 一 个 有 漏洞 的 进程 确实 可 能 出 现 这 样 的 错误 。 而 且 ， 
这 样 的 错误 可 能 不 是 偶然 的 ， 而 是 一 些 恶意 操作 的 结果 。 某 些 人 可 能 故意 让 一 个 进程 给 一 组 进程 
中 不 同 进程 发 送 不 同 的 值 ， 以 阻止 这 组 进程 达成 一 致 。 如 果 遇 到 这 种 不 一 致 的 情况 ， 正 确 的 进程 
必须 用 它们 自己 接收 的 值 和 别 的 进程 声明 的 所 接收 到 的 值 进行 比较 。 

拜占庭 将 军 问题 ”拜占庭 将 军 问题 [Lamport et al.1982] 可 以 非 正式 地 表述 成 : 3 个 或 者 更 多 的 
将 军 协商 是 进攻 还 是 撤退 。 一 个 将 军 (司令 ) 发 布 命令 ， 其 他 的 将 军 (作为 司令 手下 的 中 尉 ) 决 
定 是 进攻 还 是 撤退 。 但 是 一 个 或 者 多 个 将 军 可 能 会 叛 变 ， 也 就 是 说 会 出 错 。 如 果 司 令 叛 变 ， 他 可 
能 会 让 一 个 中 尉 进攻 ， 而 让 另 一 个 中 尉 撤退 。 如 果 一 个 中 尉 叛 变 ， 他 可 能 告诉 某 个 中 尉 说 司令 让 
他 进攻 ， 而 告诉 另 一 个 中 尉 说 司令 让 他 撤退 。 

拜占庭 将 军 问 题 和 共识 问题 的 区 别 在 于 : 前 者 有 一 个 独立 的 进程 提供 一 个 值 ， 其 他 的 进程 来 
决定 是 否 采取 这 个 值 ， 而 后 者 是 每 个 进程 都 提议 一 个 值 。 拜 占 庭 将 军 问题 的 要 求 如 下 : 

终止 性 : 每 个 正确 进程 最 终 设置 它 的 决定 变量 。 

协定 性 : 所 有 正确 进程 的 决定 值 都 相同 ， 如 果 p; 和 p; 是 正确 的 并 且 已 进入 决定 状态 ， 那 么 w = 
di (i,j= 1,2,.…,N), 

完整 性 : 如 果 司 令 是 正确 的 ， 那 么 所 有 正确 的 进程 都 采取 司令 提议 的 值 。 

值得 注意 的 是 ， 在 拜占庭 将 军 问题 中 ， 当 司令 正确 的 时 候 ， 完 整 性 隐 含 着 协定 性 ， 但 是 司令 
并 不 需要 一 定 是 正确 的 。 
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交互 一 致 性 ”交互 一 致 性 问题 是 共识 问题 的 另 一 个 变种 ， 这 个 问题 中 每 个 进程 都 提供 一 个 值 。 
算法 的 目的 是 正确 的 进程 最 终 就 一 个 值 向 量 达 成 一 致 ， 向 量 中 的 分 量 与 一 个 进程 的 值 对 应 。 我 们 
称 这 个 向 量 为 “决定 向 量 *"。 例 如 ， 可 以 让 一 组 进程 中 的 每 一 个 进程 获得 相同 的 关于 该 组 中 每 一 个 
进程 的 状态 信息 。 

交互 一 致 性 的 要 求 如 下 : 

终止 性 : 每 个 正确 进程 最 终 设置 它 的 决定 变量 。 

协定 性 : 所 有 正确 进程 的 决定 向 量 都 相同 。 

完整 性 : 如 果 进 程 己 是 正确 的 ， 那 么 所 有 正确 的 进程 都 把 w 作为 它们 决定 向 量 中 的 第 ;个 分 量 。 

共识 问题 与 其 他 问题 的 关联 虽然 人 们 通常 用 随机 进程 故障 考虑 拜占庭 将 军 问题 ,但 是 实际 
上 ， 共 识 、 拜 占 庭 将 军 、 交 互 一 致 性 问题 在 随机 故障 和 崩溃 故障 的 环境 中 都 是 有 意义 的 。 同 样 ， 
它们 都 可 以 用 于 同步 或 者 异步 的 系统 。 

有 时 候 可 以 用 解决 另 一 个 问题 的 方法 来 解决 这 个 问题 。 这 是 一 个 很 有 用 的 性 质 ， 不 仅 是 因为 加 
深 了 我 们 对 问题 的 理解 ， 也 因为 通过 重用 已 有 的 解决 方案 ， 我 们 能 降低 实现 的 工作 量 以 及 复杂 性 。 

假设 存在 如 下 方法 能 够 解决 共识 (C)、 和 拜占庭 将 军 (BG) 和 交互 一 致 性 (IC) 问题 ， 

在 一 个 对 共识 问题 的 解决 方案 中 ，Ci(v, y，,…,vw ) 返 回 进程 p; 的 决定 值 ， 其 中 vi, v2, …, ww 代表 
进程 所 提议 的 值 。 

在 一 个 对 拜占庭 将 军 的 解决 方案 中 ，BG;(j, v) 返 回 进程 p; 的 决定 值 ， 共 中 pj 是 司令 ， 它 建议 的 
值 是 v。 

在 一 个 对 交互 一 致 性 问题 的 解决 方案 中 ， ICi(vVi, v2,…, ywj[ 有 返回 进程 疡 的 决定 向 量 的 第 /个 分 
量 ， 其 中 vi, v,,…, vw 是 各 个 进程 提议 的 值 。 

在 对 C;、BG;、1C 的 定义 中 ， 我 们 假设 一 个 有 错 的 进程 提议 一 个 概念 值 ， 也 就 是 说 虽然 它 可 能 
对 不 同 的 进程 提供 不 同 的 值 ， 我 们 只 用 一 个 概念 值 。 这 只 是 为 了 方便 ， 我 们 的 解决 方案 不 会 依赖 
于 这 个 概念 值 的 具体 内 容 。 

可 以 从 其 他 问题 的 解决 方案 中 构造 出 对 一 个 问题 的 解决 方案 。 我 们 给 出 如 下 的 3 个 例子 : 

从 BG 构造 IC: 通过 将 BG 算法 运行 N 次 ， 每 次 都 以 不 同 的 进程 p;(i, j = 1, 2,…, M) 作 为 司令 ， 我 
们 可 以 从 BG 构造 对 IC 的 解决 方法 : 

[Ci (Vi, va w= BG, (jv)) (i,j = 1,2,.…, N) 

从 IC 构 造 C， 如 果 大 部 分 进程 是 正确 的 ， 那 么 通过 运行 IC 算 法 能 够 在 每 个 进程 中 产生 一 个 值 向 
量 ， 然 后 在 该 向 量 值 上 使 用 一 个 适当 的 函数 可 以 获得 一 个 单一 的 值 : 

CiVi, V2 Vy )=majority(IC, (v1, yyA[1] IC v2 YNJLND) 

G= 1,2…N)， 其 中 majority 如 前 定义 。 

从 C 构 造 BG ”我们 采用 如 下 的 方式 从 C 构 造 BG 的 解决 方案 : 

* 司令 进程 p, 把 它 提议 的 值 v 发 送 给 它 自 己 以 及 其 余 的 进程 。 

“所 有 的 进程 都 用 它们 收 到 的 那 组 值 w, v,,…,v 作 为 参数 运行 C 算 法 (其 中 p, 可 能 是 错误 的 )。 

“最 后 得 到 BG;(j,v) = CO v2 vA)(i = 1, 2,……, N)。 

读者 可 以 证 明 在 每 一 个 例子 都 满足 终止 性 、 协 定性 和 完整 性 。Fisher[1983] 提 供 了 关于 这 三 个 
问题 的 更 多 细节 。 

在 存在 崩溃 故障 的 系统 中 ， 解 决 共 识 问题 等 同 于 解决 可 靠 且 爹 排序 组 播 ， 给 定 其 中 一 个 问题 
解决 方案 ， 就 可 以 解决 另 一 个 问题 。 使 用 一 个 可 靠 且 全 排序 组 播 操 作 RTO-multicast 实 现 共识 问题 
是 比较 简单 的 。 我 们 将 所 有 的 进程 组 成 一 个 组 8。 为 了 达成 共识 ， 每 个 进程 p; 运行 RTO-multicast 
(g, Vi)。 然 后 每 个 进程 选择 di = m;， 其 中 mi; 是 p; RTO-delivers 的 第 一 个 值 。 终 止 性 是 利用 组 播 的 可 
靠 性 得 到 的 。 协 定性 和 完整 性 是 利用 组 播 的 可 靠 性 和 全 排序 得 到 的 。Chandra 和 Toueg[1996] 说 明了 
如 何 从 共识 问题 中 得 到 可 靠 且 全 排序 组 播 。 
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12.5.2 同步 系统 中 的 共识 问题 

本 节 描 述 解 决 同步 系统 中 共识 问题 的 算法 ， 该 算法 仅 使 用 了 一 个 基本 的 组 播 协议 。 算 法 假设 N 
个 进程 中 最 多 有 /个 进程 会 出 现 崩溃 故障 。 

为 了 达成 共识 ， 每 个 正确 的 进程 从 别 的 进程 那里 收集 提议 值 。 算 法 进行 /+1 个 回合 ， 在 每 个 
回合 中 ， 正 确 的 进程 B-multicast 值 。 根 据 假设 ， 最 多 有 / 个 进程 可 能 崩溃 。 最 坏 的 情况 下 ，/ 个 进 
程 都 崩溃 了 ， 但 是 算法 还 是 能 够 保证 在 这 些 回 合 结束 后 ， 所 有 活 下 来 的 正确 的 进程 处 于 一 个 一 致 
的 状态 。 

如 图 12-18 所 示 ， 该 算法 是 基于 Dolev 和 Strong[1983] 的 算法 ， 其 表示 基于 Attiya 和 Welch[1998]。 
在 第 r 个 回合 开始 的 时 候 ， 进 程 p; 将 自己 知道 的 那 组 提议 值 存放 在 变量 Values! 中 。 每 个 进程 都 将 自 
己 前 一 个 回合 没有 发 出 的 那个 值 集合 组 播 出 去 。 然 后 它 接收 从 别 的 进程 组 播 来 的 相似 的 消息 ， 并 
且 记 录 新 的 值 。 虽 然 图 12-18 中 没有 提 到 最 大 时 限 ， 但 是 每 个 回合 持续 的 时 间 是 基于 每 个 正确 的 进 
程 组 播 消 息 所 需要 的 最 长 时 间 来 确定 的 。 经 过 片 1 个 回合 以 后 ， 每 个 进程 选择 它 所 收 到 的 最 小 值 作 
为 它 的 决定 值 。 





| xpes 的 进程 的 算 靶 ， 算 法 进行 到 请 1 轮 
初始 化 : 
Values'i:={v,}: Values"={}: 
在 第 r 轮 (1 <r< 所 1) 
B-multicast(g8. Values 一 Values // 仅 发 送 还 没有 发 送 的 值 
Valuesi'! ; = Values';; 
While( 在 第 r 轮 ) 
{ 
在 8B-deliver(V) 来 自 p, 的 消息 时 : 


Values™! := Values"!, UY Vs; 


} 
在 (证 D) 轮 之 后 
将 d 赋 成 minimum(Values”'); 








图 12-18 同步 系统 中 的 共识 


既然 系统 是 同步 的 ， 终 止 性 是 显然 的 。 为 了 检查 算法 的 正确 性 ， 我 们 必须 能 够 证 明 在 最 后 一 
个 回合 结束 的 时 候 ， 每 个 进程 达到 一 个 相同 的 值 集合 。 同 时 因为 进程 对 这 个 集合 应 用 了 minimum 函 
数 ， 所 以 能 够 保证 协定 性 和 完整 性 。 

反之 ,假设 两 个 进程 的 最 终 值 集合 不 同 。 不 失 一 般 性 ， 某 个 正确 的 进程 p, 所 得 到 的 值 是 v， 另 
一 个 正确 的 进程 pj, (zx 六 得 到 的 值 不 是 x。 出 现 这 种 情况 唯一 的 解释 是 另外 还 有 一 个 进程 ， 假 设 是 p,， 
它 在 把 v 传 送 给 p; 后， 还 没有 来 得 及 传送 给 m ， 就 崩溃 了 。 同 样 道理 ， 在 前 一 个 回合 里 p, 得 到 值 v 而 
已 没 有 收 到 值 的 唯一 解释 是 在 该 回合 中 发 送 v 的 进程 崩 油 了 。 以 此 类 推 ， 每 个 回合 至 少 一 个 进程 骨 
溃 。 但 是 我 们 假设 最 多 只 有 个 进程 崩溃 ， 而 我 们 进行 了 片 1 个 回合 。 这 样 我 们 就 得 出 了 了 矛盾 。 

事实 上 ， 不管 如 何 构 造 ， 如 果 要 在 至 多 f 个 进程 崩 潢 的 情况 下 仍然 能 够 达到 共识 ， 必 须 进行 
证 1 轮 的 信息 交换 [Dolev and Strong 1983]。 这 个 下 限 同样 适用 于 拜占庭 故障 [Fischer and Lynch 
1980]。 


12.5.3 同步 系统 中 的 拜占庭 将 军 问题 

现在 我 们 讨论 同步 系统 的 拜占庭 将 军 问 题 。 与 前 一 节 描 述 的 共识 问题 不 同 的 是 ， 现 在 我 们 假 
设 进程 可 能 出 现 随机 故障 。 也 就 是 说 ， 一 个 故障 的 进程 可 能 在 任何 时 刻 发 送 任何 消息 ， 也 可 能 漏 
发 消息 。 假 设 N 个 进程 中 最 多 有 / 个 会 发 生 故 障 。 正 确 的 进程 通过 超时 能 发 现 丢 失 了 信息 ， 但 是 由 


访 词 把 直 


于 发 送 这 个 消息 的 进程 可 以 沉默 一 段 时 间 再 发 送 消 息 ， 因 此 这 个 正确 的 进程 并 不 能 断定 发 送 者 已 
经 崩溃 。 

我 们 假设 在 每 对 进程 之 间 的 通信 通道 是 私有 的 。 如 果 一 个 进程 可 以 检查 其 他 进程 发 送 的 所 有 
消息 ， 那 么 它 就 可 以 发 现 一 个 故障 进程 给 不 同 进程 发 送 的 消息 是 不 一 致 的 。 我 们 一 般 认 为 通道 是 
可 靠 的 ， 也 就 是 说 一 个 故障 进程 不 能 把 消息 插入 到 正确 进程 之 间 的 通信 通道 中 。 

Lamport 等 人 [1982] 讨 论 了 3 个 进程 相互 发 送 未 签名 消息 的 情景 。 他们 主 明 ， 如 果 人 允许 一 个 进程 
出 现 故 障 ， 那 么 将 无 法 保证 满足 拜占庭 将 军 问题 的 条 件 。 他 们 还 将 这 一 结果 推广 到 N<3f， 此 时 也 
没有 解决 方法 。 稍 后 我 们 将 会 简要 说 明 这 个 结论 。 他 们 还 给 出 一 个 算法 ， 解 决 在 同步 系统 中 N> 
3 证 1 的 情况 下 未 签名 消息 (他们 将 这 些 消 息 称 为 “日 头 的 ”) 的 拜占庭 将 军 问 题 。 


Pi (司令 ) 





有 故障 的 进程 用 灰色 表示 
图 12-19 3 个 拜占庭 将 军 


3 个 进程 的 不 可 能 性 ”图 12-19 给 出 了 3 个 进程 中 只 有 一 个 进程 出 现 故 障 的 两 个 场景 。 在 左边 的 
场景 中 ， 中 尉 p 有 故障 ， 对 于 右边 的 情况 ， 司 令 p, 有 故障 。 图 12-19 中 给 出 了 两 个 回合 的 消息 交换 : 
司令 发 送 的 值 和 两 个 中 尉 相互 发 送 的 值 。 数 字 前 缀 表明 消息 的 来 源 ， 并 且 给 出 了 不 同 的 回合 数 。 
我 们 可 以 把 消息 中 的 “:” 读 成 “说 ”"， 例 如 “3: 1: wu” 读 成 “3 说 1 说 u”。 

在 左边 的 场景 下 ， 司 令 正 确 地 将 同一 个 值 v 发 送 给 其 他 两 个 进程 ，p; 正 确 地 将 这 个 消息 发 送 给 
P3。 然 而 ，p3 将 uzv 发 送 给 p,。 在 这 个 阶段 p; 知 道 的 只 是 它 收 到 了 两 个 不 同 的 值 ， 它 并 不 能 判断 哪个 
值 是 司令 传 过 来 的 。 


在 右边 的 场景 下 ， 司 令 有 错误 ， 它 发 给 两 个 中 尉 的 值 是 不 同 的 。 Ps 发 送 了 它 收 到 的 值 x 后 ，p。 ， 


处 于 和 前 一 种 情况 (p3 有 错时 ) 相同 的 状态 : 它 也 收 到 两 个 不 同 的 值 。 

如 采 存 在 一 个 解决 办 法 ， 那 么 当 司令 是 正确 的 时 候 ， 进 程 记 必须 决定 值 v， 这 是 完整 性 条 件 所 
要 求 的 。 如 果 没 有 算法 能 够 区 分 这 两 种 情况 ， 那 么 p, 必 须 还 是 选择 右边 场景 下 司令 发 送 的 值 。 

对 p; 做 完全 相同 的 推理 ， 假 设 p3 是 正确 的 。 由 于 对 称 性 ， 我 们 必须 得 出 结论 : p; 也 选择 司令 发 
来 的 值 作为 它 的 决定 值 。 但 这 就 违反 了 协定 性 条 件 (司令 出 现 故 障 的 时 候 对 不 同 的 进程 发 出 了 不 
同 的 值 )。 所 以 ， 不 存在 可 能 的 解决 办 法 。 

注意 ， 上 面 的 讨论 基于 我 们 的 直觉 ， 那 就 是 在 第 一 阶段 我 们 不 能 分 辨 哪个 进程 是 有 故障 的 ， 而 在 
以 后 我 们 也 无 法 增加 一 个 正确 进程 的 知识 。 我 们 可 以 证 明 这 一 直觉 的 正确 性 [Pease et al.1980]。 如 果 将 
军 们 能 够 对 他 们 发 出 的 消息 使 用 数字 签名 ， 那 么 3 个 将 军 中 有 一 个 出 现 故 障 ， 也 能 实现 拜占庭 协定 。 

对 于 N<3f 的 不 可 能 性 ”Pease 等 人 推广 了 3 个 进程 的 不 可 能 性 结论 ,证 明 只 要 N<3f， 就 不 可 
能 有 解决 方法 。 下 面 简要 给 出 证 明 。 假 设 在 N<3f 时 有 一 个 解决 方案 。 我 们 假设 3 个 进程 pi、ps、p; 
分 别 模拟 n,、n,、n; 个 将 军 ， 其 中 +n2+n3=N 并 有 Lnis n,、 13 委 NM/3。 我 们 进一步 假设 3 个 进程 中 
有 一 个 有 错误 。p,、p，、Pp; 中 正确 的 进程 模拟 正确 的 将 军 ， 进程 在 内 部 模拟 内 部 将 军 之 间 的 交互 ， 
并 且 自 己 的 将 军 还 会 给 被 其 他 进程 模拟 的 将 军 发 送信 息 。 错 误 的 进程 模拟 出 错 的 将 军 ， 它 发 送 给 其 
他 两 个 进程 的 信息 可 能 是 伪造 的 。 既 然 N<3f 并且 n,、w、n3<N/3, 所 以 最 多 f 个 将 军 可 能 出 错 。 

由 于 假设 进程 运行 的 算法 是 正确 的 ， 因 此 模拟 能 够 终止 。 那 些 正 确 的 将 军 (在 两 个 正确 的 进 
程 中 ) 就 会 达成 一 致 并 且 满足 完整 性 。 但 是 ， 这 就 是 说 3 个 进程 中 的 两 个 达到 了 共识 : 每 个 进程 对 
由 所 有 将 军 选 择 的 值 做 出 决定 。 这 就 与 前 面 的 3 个 将 军 中 有 一 个 是 有 错 的 不 可 能 性 结论 相 了 矛盾 。 
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对 一 个 有 错 进 程 的 解决 方案 ” Pease 等 人 提出 了 一 个 算法 来 解决 N>3f +1 的 同步 系统 中 的 拜 占 
庭 将 军 问题 。 在 这 里 没有 足够 的 篇 幅 来 讨论 这 个 算法 ， 但 是 我 们 将 给 出 N>4, f= 1 的 算法 操作 ， 并 
以 N=4,f= 1 来 说 明 该 算法 。 

正确 的 将 军 通过 两 轮 消息 取得 一 致 : 

。 第 一 轮 ， 司 令 给 每 个 中 尉 发 送 一 个 值 。 

“第 二 轮 ， 每 个 中 尉 将 收 到 的 值 发 送 给 与 自己 同 级 的 人 。 

每 个 中 尉 收 到 司令 发 来 的 一 个 值 ， 以 及 从 其 他 中 尉 来 的 N 一 2 个 值 。 如 果 司 令 有 错 ， 而 所 有 中 
尉 都 是 正确 的 ， 那 么 每 个 中 尉 都 会 收 到 司令 发 出 的 值 。 否 则 ， 一 个 中 尉 有 错 ， 他 的 其 他 同事 收 到 
司令 发 来 的 值 的 N 一 2 份 副本 ， 以 及 有 错 的 中 尉 发 来 的 一 个 值 。 

不 管 在 哪 种 情况 下 ， 每 个 正确 中 尉 只 需要 对 它们 收 到 的 值 集合 应 用 一 个 简单 的 majority 函数 。 
由 于 N>4, (N 一 2)>2， 因 此 ，majority 函数 会 忽略 出 错 中 尉 发 来 的 值 ， 并 且 当 司令 是 正确 的 时 候 ， 
该 函数 能 产生 司令 发 来 的 值 。 


Pp! (司令 ) 2 





有 故障 的 进程 用 灰色 显示 
图 12-20 4 个 拜占庭 将 军 


我 们 用 有 4 个 将 军 的 情况 说 明 上 述 算法 。 图 12-20 给 出 了 与 图 12-19 相 似 的 两 个 场景 ， 但 是 现在 
有 4 个 进程 ， 其 中 一 个 进程 是 有 错 的 。 像 在 图 12-19 中 一 样 ， 左 边 图 中 的 中 尉 p 是 有 错 的 ， 在 右边 的 
图 中 ,司令 p! 是 有 错 的 。 

当 出 现 左 图 的 场景 时 ， 两 个 正确 的 中 尉 进程 在 决定 司令 的 值 时 达成 一 致 : 

DP; 决定 majority (v, u,v) =v 
Ps 决定 majority (vv w) =v 
在 右 图 的 场景 中 ， 司 令 是 有 错 的 ， 但 是 正确 的 3 个 中 尉 进程 能 达成 一 致 
Py、Ps 和 ps 决定 majority (v, u, w)= 上 (特殊 值 上 代表 没有 占 多 数 的 值 存 在 ) 

这 个 算法 考虑 了 一 个 错误 进程 可 能 漏 发 消息 的 情况 。 如 果 一 个 正确 的 进程 在 一 个 适当 的 时 间 
范围 内 (系统 是 同步 的 ) 没有 收 到 一 个 消息 ， 它 就 认为 错误 进程 向 它 发 送 了 特殊 值 上 ， 然 后 继续 
处 理 % 

讨论 ”对 于 一 个 解决 拜占庭 将 军 (或 者 其 他 协定 问题 ) 的 算法 ， 我 们 通过 以 下 两 个 问题 来 度 
量 其 效率 : 

`。 进 行 了 多 少 轮 消息 传递 ? (这 个 因素 影响 算法 终止 需要 的 时 间 。) 
。 发 送 了 多 少 消息 ， 消 息 的 长 度 是 多 少 ? (这 个 因素 度量 带宽 的 利用 ， 并 且 会 影响 执行 的 时 
间 。) 

一 般 情况 下 ( 户 1)，Lamport 等 人 的 算法 用 于 未 签名 的 消息 传送 时 ， 需 要 操作 f+ 1 轮 。 在 每 
轮 中 ， 每 个 进程 发 送 它 在 前 一 轮 中 收 到 的 其 他 进程 发 来 的 值 的 一 个 子 集 。 算 法 代价 很 高 ， 它 需要 
发 送 O (MX ) 条 信息 。 

Fischer 和 Lynch[1982] 证 明 ， 如 果 人 允许 出 现 拜 占 庭 故 障 (因而 也 包括 拜占庭 将 军 问 题 ， 见 
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12.5.1 节 )， 那 么 任何 确定 性 的 解决 共识 问题 的 算法 至 少 需要 f+ 1 轮 消 息 传递 。 所 以 在 这 个 方面 ， 
没有 算法 能 比 Lamport 等 人 的 算法 执行 更 快 。 但 是 可 以 改善 消息 的 复杂 度 ， 例 如 Garay 和 Moses 
[1993] 做 的 改进 。 

有 些 算法 〈 例 如 Dolev 和 Strong[1983] 的 算法 ) 对 消息 进行 签名 。Dolev 和 Strong 的 算法 也 需要 
进行 f+ 1 轮 ， 但 是 发 送 消 息 的 数量 仅 是 O(N”)。 

由 于 算法 的 复杂 性 和 代价 ， 因 此 建议 只 在 安全 威胁 很 严重 的 地 方 使 用 这 些 算法 。 如 果 威 胁 来 
自 硬件 错误 ， 那 么 出 现 随 机 行为 错误 的 可 能 性 是 很 小 的 。 如 果 解 决 方案 所 基于 的 错误 模型 的 知识 
越 详细 ， 那 么 可 以 得 到 的 解决 方案 更 有 效 [Barborak et al. 1993]。 如 果 威 胁 来 自 于 恶意 的 用 户 ， 那 
么 受到 威胁 的 系统 更 可 能 使 用 数字 签名 ， 一 个 不 使 用 签名 的 解决 方案 是 不 合 实际 的 。 


12.5.4 异步 系统 的 不 可 能 性 


现在 我 们 已 经 提供 了 同步 系统 中 共识 和 拜占庭 将 军 问 题 的 解决 方案 (由 此 可 推导 出 交互 一 致 
性 的 解决 方案 )。 然 而 这 些 算法 都 依赖 于 系统 是 同步 的 。 算 法 假定 消息 交换 按 轮 进行 ， 进 程 有 超时 
机 制 ， 可 以 因为 超过 最 大 延迟 而 认为 出 错 的 进程 在 那 轮 没有 发 送 消 息 。 

Fischer 等 人 [1985] 证 明 在 一 个 异步 系统 中 ， 即 使 是 只 有 一 个 进程 出 现 崩溃 故障 ， 也 没有 算法 能 
够 保证 达到 共识 。 因 为 在 一 个 异步 系统 中 ， 进 程 可 以 随时 发 出 响应 的 消息 ， 所 以 没有 办 法 分 辨 一 
个 进程 是 速度 很 慢 还 是 已 经 崩溃 。 他 们 的 证 明显 示 了 进程 的 执行 总 是 有 中 断 了 再 延续 的 情况 ， 这 
阻止 了 进程 达到 共识 。 详 细 的 证 明 已 经 超出 本 书 的 范围 ， 这 里 不 再 细 述 。 

从 Fischer 等 人 的 结论 中 我 们 立刻 可 以 得 到 : 在 异步 系统 中 ， 我 们 没有 可 以 确保 解决 拜占庭 将 
军 问题 、 交 互 一 致 性 问题 或 者 全 排序 和 可 靠 组 播 问 题 的 方法 。 如 果 有 这 样 的 解决 办 法 ， 根 据 12.5.1 
节 的 结论 ， 我 们 就 会 有 共识 问题 的 解决 办 法 一 -这 与 不 可 能 性 结论 是 相 矛 盾 的 。 

注意 ， 我 们 在 不 可 能 性 结论 中 使 用 了 “确保 ”这 个 词 。 这 并 不 是 说 在 分 布 式 系统 中 ， 如 果 有 
一 个 进程 出 现 了 错误 ， 进程 就 永远 不 可 能 达到 共识 。 它 允许 我 们 达到 共识 的 概率 大 于 0， 这 与 实际 
相符 合 。 例 如 ， 尽 管 我 们 的 系统 通常 是 异步 的 ， 但 是 事务 系统 多 年 来 一 直 能 达到 共识 。 

绕 过 不 可 能 性 结论 的 办 法 是 考虑 部 分 同步 系统 。 部 分 同步 系统 比 同步 系统 对 同步 性 要 弱 ， 可 
以 作为 实际 应 用 的 系统 的 模型 ， 但 其 同步 性 又 比 异步 系统 要 强 ， 使 得 共识 问题 能 够 被 解决 [Dwork 
et al .1988]。 这 个 方法 的 介绍 同样 超出 了 本 书 的 范围 。 我 们 将 简要 介绍 线 过 不 可 能 性 结论 的 三 个 方 
法 : 故障 屏蔽 、 利 用 故障 检测 器 达到 共识 、 随 机 化 进程 的 行为 。 

故障 屏 项 ”第 一 种 完全 避免 不 可 能 性 结论 的 技术 是 屏蔽 发 生 的 所 有 进程 故障 (2.3.2 节 有 故障 
屏蔽 的 介绍 ) 。 例 如 ， 事 务 系统 使 用 持久 存储 ， 它 能 够 从 骨 溃 中 恢复 。 如 果 一 个 进程 崩溃 ， 它 会 被 
重启 (自动 重启 或 者 由 管理 员 重 启 )。 进 程 在 程序 的 关键 点 的 持久 存储 中 保留 了 足够 多 的 信息 ， 以 
便 在 崩溃 和 重启 时 能 够 利用 这 些 数据 正确 地 继续 被 中 断 的 工作 。 换 句 话说 ， 它 能 够 像 正确 的 进程 
那样 工作 ， 只 是 有 时 候 它 需要 很 长 时 间 来 执行 一 个 处 理 。 

当然 ， 故 障 屏 项 一 般 可 应 用 到 系统 设计 中 。 第 14 章 讨论 了 事务 系统 如 何 利用 持久 存储 。 第 15 
章 描述 了 如 何 利用 软件 组 件 的 复制 来 屏蔽 进程 故障 。 

使 用 故障 检测 器 达到 共识 ” 另 一 种 绕 过 不 可 能 性 结论 的 方法 是 使 用 故障 检测 器 。 一 些 实际 的 
系统 使 用 “完美 设计 ”的 故障 检测 器 来 达到 共识 。 实 际 上 ， 在 一 个 仅仅 依靠 消息 传递 工作 的 异步 
系统 中 ， 没 有 故障 检测 器 是 真正 达到 完美 的 。 然 而 ， 进 程 可 以 协商 后 认为 一 个 超过 指定 时 间 没 有 
反应 的 进程 已 经 出 错 了 。 一 个 没有 响应 的 进程 未 必 已 经 出 错 了 ， 但 是 其 余 的 进程 认为 它 已 经 出 错 
了 。 它 们 将 接 下 来 收 到 的 所 有 从 出 错 的 进程 发 来 的 消息 全 部 抛弃 ， 从 而 把 这 个 故障 变 成 “失败 一 沉 
默 "。 换 句 话说， 我 们 已 经 有 效 地 将 一 个 异步 系统 转化 为 一 个 同步 系统 。 这 项 技术 被 应 用 在 ISIS 系 
统 中 [Birman 1993]。 

该 方法 要 求 故障 检测 器 是 精确 的 。 如 果 故 障 检测 器 不 精确 的 话 ， 系 统 在 工作 中 可 能 放弃 一 个 
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成 员 ， 而 实际 上 这 个 成 员 为 系统 的 有 效 性 做 出 贡献 。 遗 憾 的 是 ， 让 故障 检测 器 保证 合理 的 精确 性 
需要 设 定 很 长 的 超时 值 ， 这 就 需要 进程 等 待 一 个 相对 较 长 的 时 间 (并 且 不 能 执行 有 用 的 工作 ) 才 
能 得 出 一 个 进程 已 经 出 错 的 结论 。 这 个 方法 还 会 引起 了 另 一 个 问题 一 一 网 络 分 区 ， 我 们 将 在 第 15 
章 讨论 这 个 问题 。 

一 个 完全 不 同 的 方法 是 使 用 “不 完美 ”的 故障 检测 器 ， 这 种 方法 允许 被 怀疑 的 进程 正确 行动 
而 不 是 排除 它 来 达到 共识 。 为 了 解决 在 异步 系统 中 的 共识 问题 ，Chanadra 和 Toueg[1996] 分 析 了 一 
个 故障 检测 器 必须 拥有 的 属性 。 他 们 证 明 ， 即 使 是 使 用 不 可 靠 的 故障 检测 器 ， 只 要 通信 和 是 可 靠 的 ， 
崩溃 的 进程 不 超过 MW2， 那 么 异步 系统 中 的 共识 问题 是 可 以 解决 的 。 我 们 称 能 够 实现 这 个 目标 的 最 
弱 的 故障 检测 器 为 最 终 弱 故障 检测 器 。 该 检测 器 具有 如 下 性 质 : 

最 终 弱 完全 性 ， 每 一 个 错误 进程 最 终 常常 被 一 些 正确 进程 怀疑 。 

最 终 缠 精确 性 : 经 过 某 个 时 刻 后 ， 至 少 一 个 正确 的 进程 从 来 没有 被 其 他 正确 的 进程 所 怀疑 。 

Chandra 和 Toueg 证 明 ， 在 异步 系统 中 ， 我 们 不 能 只 依靠 消息 传递 来 实现 一 个 最 终 弱 故障 检测 
器 。 但 是 ， 我 们 在 12.1 节 中 描述 了 一 个 基于 消息 的 故障 检测 器 ， 它 能 够 根据 观察 到 的 响应 时 间 调 节 
它 的 超时 值 。 如 果 一 个 进程 或 者 一 个 到 检测 器 的 连接 很 慢 ， 那 么 超时 值 就 会 增加 ， 那 么 错误 地 怀 
疑 一 个 进程 的 情况 将 变 得 很 少 。 在 很 多 实际 系统 中 ， 从 实用 目的 看 ， 这 个 算法 与 最 终 弱 故障 检测 
器 相当 相似 。 

Chandra 和 Toueg 的 共识 算法 允许 被 错误 怀疑 的 进程 继续 它们 正常 的 操作 ， 并 且 允 许 怀疑 它们 
的 进程 接受 它们 发 出 的 消息 并 正常 地 处 理 。 虽 然 这 使 得 应 用 程序 员 的 工作 变 得 复杂 ， 但 是 这 样 做 
的 好 处 在 于 : 正确 的 进程 不 会 被 错误 地 排斥 出 去 和 而 造成 浪费 。 而 且 ， 与 ISIS 方 法 相 比 ， 故 障 检测 的 
超时 值 可 以 不 必 那 么 保守 。 

使 用 随机 化 达到 共识 ”Fischer 等 人 的 结论 依赖 于 我 们 考虑 的 “敌人 ”是 什么 。 这 是 一 个 “人 
物 ”(〈 实 际 上 是 一 个 随机 事件 的 集合 ) ， 它 能 够 利用 异步 系统 的 现象 来 阻止 进程 达到 共识 。 敌 人 操 
纵 网 络 来 延迟 消息 以 便 使 它们 在 错误 的 时 刻 到 达 ， 或 者 减缓 或 加 速 进程 ， 使 得 当 进程 收 到 一 个 消 
息 的 时 候 处 于 错误 的 状态 。 

第 3 种 解决 不 可 能 性 结论 的 技术 是 引入 一 个 关于 进程 行为 的 可 能 性 元 素 ， 使 得 敌人 不 能 有 效 地 
实施 它们 的 阻碍 战术 。 在 有 的 情况 下 还 是 不 能 达到 共识 ， 但 是 这 个 方法 使 得 进程 能 够 在 一 个 有 限 
的 期 刻 时 间 内 达到 共识 。Canetti 和 Rabin[1993] 提 出 了 一 个 概率 算法 可 以 解决 共识 甚至 拜占庭 故障 
问题 。 


12.6 小 结 


本 章 开始 讨论 了 进程 在 互 斥 条 件 下 访问 共享 资源 的 必要 性 。 锁 并 不 总 是 由 管理 共享 资源 的 服 
务 器 实现 的 ， 所 以 需要 一 个 单独 的 分 布 式 互 尺 服务 。 我 们 考虑 了 3 种 实现 互 斥 的 算法 ， 一 种 使 用 中 
央 服 务 器 的 算法 ， 一 个 基于 环 的 算法 以 及 一 个 使 用 逻辑 时 钟 的 基于 组 播 的 算法 。 像 我 们 描述 的 那 
样 ， 它 们 中 没有 一 个 能 够 经 受 住 故障 ， 虽 然 经 过 修改 它们 能 够 容忍 一 些 错误 。 

接 下 来 ， 本 章 考 虑 了 一 个 基于 环 的 算法 和 霸道 算法 ， 它 们 共同 的 目的 是 从 一 个 给 定 的 集合 中 
选 出 唯一 的 一 个 进程 一 一 即使 同时 发 生 几 个 选举 。 例 如 ， 在 主 时 间 服 务 器 或 者 锁 服务 器 出 故障 时 ， 
霸道 算法 可 用 于 选取 一 个 新 的 服务 器 。 

本 章 还 撕 述 了 组 播 通信 ， 讨 论 了 可 靠 组 播 (正确 的 进程 对 要 传递 的 消息 集合 达成 一 致意 见 ) 
以 及 具有 FIFO、 因 果 、 全 排序 的 组 播 。 我 们 给 出 了 可 靠 组 播 的 算 靶 ， 还 给 出 了 所 有 3 种 传递 顺序 的 
算法 。 

最 后 我 们 描述 了 共识 问题 、 拜 占 庭 将 军 问 题 以 及 交互 一 致 性 问题 。 我 们 定义 了 它们 的 解决 方 
案 的 条 件 ， 并 且 证 明了 这 些 问 题 之 间 的 关系 一 一 包括 共识 和 可 靠 、 全 排序 组 播 之 间 的 关系 。 
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在 同步 系统 中 可 以 解决 上 述 问 题 ， 我 们 描述 了 一 些 算法 。 实 际 上 ， 即 使 可 能 出 现 随机 故障 ， 
解决 的 方法 也 是 存在 的 。 我 们 大 致 描述 了 Lamport 等 的 关于 拜占庭 将 军 问题 的 解法 的 一 部 分 内 容 。 
最 近 的 算法 有 更 低 的 复杂 度 ， 但 是 从 原理 上 看 ， 没 有 一 个 算法 能 比 该 算法 采用 的 f+ 1 轮 处 理 更 好 ， 
除非 消息 采用 数字 签名 。 

本 章 最 后 描述 了 Fischer 等 人 的 基本 结论 ， 即 关于 异步 系统 中 保证 共识 的 不 可 能 性 。 我 们 讨论 
了 虽然 有 这 样 的 结论 ， 异 步 系 统 还 能 够 达成 一 致 的 方法 。 


12.1 使 用 一 个 不 可 靠 的 通信 通道 ， 有 没有 可 能 实现 一 个 可 靠 的 或 者 不 可 靠 (进程 ) 的 故障 检 

测 器 ? (第 470 页 ) 

12.2 如 果 所 有 的 客户 进程 都 是 单线 程 的， 那么 用 来 按 发 生 在 先 顺序 指定 位 置 的 互 斥 条 件 ME3 是 否 

有 用 ? (第 473 页 ) 

12.3 根据 同步 延 时 给 出 计算 互 斥 系统 最 大 吞吐 量 的 公式 。 (第 473 页 ) 
12.4 在 用 于 互 斥 的 中 央 服务 器 算法 中 ， 描 述 使 得 两 个 请 求 不 是 按照 发 生 在 先 顺序 处 理 的 情景 。 

(第 474 页 ) 

12.5 修改 用 于 互 斥 的 中 央 服 务 器 算法 ， 使 之 能 够 处 理 任何 客户 (在 任何 状态 ) 的 崩溃 故障 ， 假 设 

服务 器 是 正确 的 ， 并 且 有 一 个 可 靠 的 的 故障 检测 器 。 讨 论 这 个 系统 是 否 能 够 容错 。 如 果 拥 有 


令 牌 的 客户 被 错误 地 怀疑 为 出 了 故障 ， 会 发 生 什么 样 的 情况 ? (第 474 页 ) 
12.6 就 基于 环 的 算法 ， 给 出 一 个 执行 的 例子 ， 用 以 说 明 进 程 不 必 以 发 生 在 先 顺序 授权 进入 临界 
区 。 (第 475 页 ) 


12.7 在 某 个 系统 中 ， 每 个 进程 常常 多 次 使 用 一 个 临界 区 后 另 一 个 进程 才 需 要 访问 。 解 释 为 什么 
Ricart 和 Agrawala 的 基于 组 播 的 互 斥 算法 在 这 种 情况 下 效率 很 低 ， 描 述 如 何 提高 它 的 性 能 。 


你 的 修改 是 否 满足 活性 条 件 ME2? (第 477 页 ) 
12.8 在 霸道 算法 中 ， 恢 复 进 程 启动 一 次 选举 ， 并 且 如 果 它 比 当前 的 协调 者 进程 有 更 高 的 标识 符 ， 
那么 它 就 成 为 新 的 协调 者 。 这 是 算法 所 必需 的 吗 ? (第 482 页 ) 

12.9 如 何 修改 霸道 算法 以 处 理 两 种 情况 : 暂时 的 网 络 分 区 (通信 变 慢 ) 以 及 处 理 变 慢 。 
(第 484 页 ) 
12.10 设计 一 个 在 IP 组 播 上 进行 基本 组 播 的 协议 。 (第 486 页 ) 
12.11 对 开放 组 的 情况 ， 怎 样 修改 可 靠 组 播 的 完整 性 、 协 定性 、 有 效 性 定义 。 (第 487 页 ) 


12.12 在 图 12-10 中 ， 如 果 颐 倒 以 下 两 个 语句 的 顺序 :“R-deliver m” 和 “if(qzp) then B- 
multicast(g,m);end if”, 那 么 算法 将 不 再 满足 统一 的 协定 。 基 于 TIP 组 播 的 可 靠 组 播 算法 是 否 


满足 统一 的 协定 ? (第 488 页 ) 
12.13 解释 为 什么 基于 IP 组 播 的 可 靠 组 播 算法 不 适用 于 开放 组 也 不 适用 于 封闭 组 。 给 定 任何 一 个 
用 于 封闭 组 的 算法 ， 我 们 如 何 从 它 构 造 一 个 用 于 开放 组 的 算法 ? (第 488 页 ) 


12.14 在 基于 IP 组 播 的 可 靠 组 播 协议 中 ， 为 了 达到 有 效 性 和 协定 性 做 了 一 些 不 合 实际 的 假设 ， 说 
明 如 何 解 决 这 些 假设 。 提 示 : 当 一 个 消息 被 传递 后 ， 增 加 一 个 删除 保留 消息 的 规则 ， 考 虑 
增加 一 个 唾 “心跳 ”消息 ， 这 个 消息 永远 不 会 发 给 应 用 ， 而 是 当 应 用 没有 消息 要 发 送 的 时 
候 由 协议 发 送 。 (第 488 页 ) 

12.15 在 基于 FIFO 顺 序 的 组 播 中 ， 考 虑 同一 个 信息 源 发 送 两 个 信息 给 两 个 有 重 登 的 组 ， 以 及 一 个 
处 于 两 个 组 的 交集 中 的 进程 ,证 明 这 个 算法 不 适用 于 有 重 登 组 。 修 改 该 算法 使 之 能 用 于 重 
全 组 。 提 示 ;， 进程 应 该 在 它们 的 消息 中 包括 发 给 所 有 组 的 消息 的 最 新 顺序 号 。 (第 493 页 ) 

12.16 证 明 : 如 果 我 们 在 图 12-14 所 示 的 基本 组 播 算法 中 是 FIFO 序 的 ， 那 么 得 到 的 全 排序 组 播 也 是 
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因果 排序 的 。 任 何 一 个 为 FIFO 序 并 且 是 全 排序 的 组 播 是 不 是 也 是 因果 序 的 ? (第 494 页 ) 
考虑 如 何 修改 因果 序 的 组 播 协 议 来 处 理 重 芍 组 。 (第 497 页 ) 
在 讨论 Maekawa 的 互 斥 算法 的 时 候 ， 我 们 给 出 了 3 个 进程 的 3 个 子 集 可 能 导致 死 锁 的 例子 。 
使 用 这 些 子 集 作为 组 播 的 组 ， 证 明 为 什么 进程 对 的 全 排序 不 一 定 是 无 环 的 。 (第 498 页 ) 
使 用 一 个 可 靠 组 播 和 一 个 解决 共识 问题 的 方法 ， 在 同步 系统 中 建立 一 个 可 靠 的 、 全 排序 组 
播 。 (第 498 页 ) 
从 可 靠 全 排序 组 播 (涉及 选择 第 -个 可 以 传递 的 值 ) 的 解决 方案 可 以 得 到 共识 的 解决 方法 。 
从 基本 原理 解释 ， 为 什么 在 一 个 异步 系统 中 ， 我 们 不 能 从 可 靠 的 但 不 是 全 排序 的 组 播 服务 
以 及 “majoripy” 函 数 得 到 共识 的 解决 方案 。( 注 意 ， 如 果 我 们 能 够 做 到 ， 就 会 与 Fischer 等 
的 不 可 能 性 结论 相 子 盾 ! ) 提示 : 考虑 速度 慢 的 或 者 出 故障 的 进程 。 (第 503 页 ) 
在 3 个 将 军 的 拜占庭 将 军 问题 中 ， 证 明 如 果 将 军 对 消息 进行 签名 ， 那 么 在 一 个 将 军 有 问题 的 
情况 下 也 可 以 达成 协定 。 (第 505 页 ) 
解释 如 何 修改 IP 组 播 上 的 可 靠 组 播 算法 ， 从 而 消除 保持 队列 ， 这 样 ， 收 到 的 非 重复 的 消息 
能 马上 被 传递 ， 但 没有 任何 排序 保证 。 提 示 ， 用 集合 而 不 是 序号 来 表示 到 目前 为 止 已 经 被 
传递 的 消息 。 (第 489 页 ) 





第 13 章 事务 和 并 发 控制 


本 章 将 讨论 事务 和 并 发 控制 在 服务 器 管理 共享 对 象 时 的 应 用 。 

事务 定义 了 一 个 服务 器 操作 序列 ， 由 服务 器 保证 这 些 操 作 序 列 在 多 个 客户 并 发 访问 和 服务 器 
出 现 故 障 情况 下 的 原子 性 。 风 套 事务 定 义 了 若干 事务 之 间 的 购 套 结构 ， 它 们 因为 具有 更 高 的 并 发 
度 ， 因 而 在 分 布 系统 中 非常 有 用 。 

所 有 的 并 发 控制 协议 都 是 基于 串 行 相等 的 标准 ， 它 们 都 源 于 用 来 解决 操作 冲突 的 规则 。 本 章 
描述 了 三 种 方法 : + 

* 锁 用 于 在 多 个 事务 访问 同一 个 对 象 时 根据 这 些 操作 访问 同一 对 象 的 先后 次 序 给 事务 排序 。 

"乐观 并 发 控制 允许 事务 一 直 执行 ， 直 到 它们 准备 提交 为 止 ， 只 是 在 提交 时 通过 检查 来 确定 已 

执行 的 操作 是 否 存 在 冲突 。 

“时 间 发 排序 利用 时 间 恰 将 访问 同一 对 象 的 事务 根据 它们 的 起 始 时 间 进 行 排序 。 


13.1 简介 


事务 的 目标 是 在 多 个 事务 访问 对 象 以 及 服务 器 面临 故障 的 情况 下 ， 保 证 所 有 由 服务 器 管理 的 
对 象 始终 保持 一 个 一 致 的 状态 。 第 2 章 介 绍 了 分 布 式 系统 的 故障 模型 。 事 务 能 够 处 理 进 程 的 贿 涡 故 
障 和 通信 的 遗漏 故障 ， 但 不 能 处 理 任何 随机 (或 拜占庭 ) 行为 。13.1.2 节 将 给 出 事务 的 故障 模型 ， 
能 够 在 服务 器 崩溃 后 恢复 的 对 象 称 为 可 恢复 对 象 。 通 常 这 些 对 象 存储 在 挥发 性 存储 《例如 
RAM) 或 持久 存储 (例如 硬盘 ) 中。 即使 对 象 存放 在 挥发 性 存储 中 ， 服 务 器 仍然 可 以 利用 持久 存 
储 来 保存 足够 多 的 对 象 状 态 信息 ， 以 便 在 服务 器 进程 崩 潢 后 能 够 恢复 这 些 对 象 。 这 使 得 服务 器 能 
保证 对 象 是 可 恢复 的 。 事 务 是 由 客户 定义 的 针对 服务 器 对 象 的 一 组 操作 ， 它 们 组 成 一 个 不 可 分 
的 单元 ， 由 服务 器 执行 。 服 务 器 必须 保证 或 者 整个 事务 被 执行 并 将 执行 结果 记录 到 持久 存储 中 ， 
或 者 在 出 现 故障 时 ， 能 完全 消除 这 些 操作 的 所 有 影响 。 下 一 章 将 讨论 涉及 几 个 服务 器 的 事务 的 相 
关 问题 ， 特 别 是 如 何 决定 一 个 分 布 式 事务 的 [二 
结果 。 本 章 重点 研究 单 服务 器 上 的 事务 。 从 “| ep 
其 他 客户 事务 的 角度 而 言 ， 一 个 客户 的 事务 。 | 个 oun 数 时 的 外 





withdraw(amount)} 


也 被 认为 是 不 可 分 割 的 ， 因 为 一 个 事务 中 的 从 账户 中 取 amount 数 量 的 钱 
操作 不 能 观察 到 另 一 个 事务 中 的 操作 的 部 分 getBalance() 一 amount 
结果 。13.1.1 节 将 介绍 对 象 的 简单 同步 访问 ， 返回 账户 中 余额 


. | 幼 aE ~ setBalance(amount)} 
13.2 节 将 介绍 事务 ， 事 务 需 要 防止 客户 之 间 将 账户 余额 设置 成 amount 


神 突 的 更 高 级 的 技术 。13.3 节 讨论 候 套 事务 。 
13.4 节 ~ 13.6 节 分 别 讨 论 单 服务 器 上 的 事务 a | 
的 三 种 并 发 控制 方法 ， 即 锁 、 乐 观 并 发 控制 | “人 
和 时 间 玲 排序 。 第 14 章 进一步 讨论 如 何 将 这 人 . 
些 方法 加 以 扩展 ， 运 用 到 多 个 服务 器 上 的 事 根据 给 定 用 户 名 查找 账户 ， 并 返回 该 账户 的 一 个 引用 
务 中 o branchTotal{) 一 amount 
为 了 方便 本 章 讨论 ， 我 们 使 用 了 一 个 银 返回 支行 中 所 有 账户 余额 的 总 和 
行 的 例子 ， 如 图 13-1 所 未 。 每 个 银行 账户 由 。 | esoor 各 和 Pre 接口 的 模 作 
一 个 远程 对 象 表示 , 它 支 持 一 个 Account 接 口 ， 图 13-1 _ Account 接口 的 操作 
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该 接口 提供 存款 、 取 款 、 查 询 和 设置 账面 余额 等 操作 。 银 行 分 行 用 一 个 远程 对 象 表示 ， 其 接口 为 
Branch， 该 接口 提供 创建 新 账户 、 通 过 名 字 查 找 账 户 和 查询 分 行 总 余额 等 操作 。 


13.1.1 简单 的 同步 机 制 无 事务 ) 

本 章 涉 及 的 一 个 主要 问题 是 如 果 不 仔细 设计 服务 器 ， 不 同 客户 执行 的 操作 有 时 会 相互 冲突 。 
这 种 冲突 会 导致 对 象 产生 不 正确 的 值 。 本 节 先 讨论 没有 事务 时 客户 操作 如 何 同步 。 

服务 器 上 的 原子 操作 ”从 本 书 前 面 的 章节 ， 我 们 已 经 看 到 ， 使 用 多 线程 可 以 提高 服务 器 的 性 
能 。 我 们 也 注意 到 使 用 多 线程 能 够 让 不 同 的 客户 并 发 执行 并 且 访 问 同 一 个 对 象 。 因 此 ， 对 象 应 该 
设计 成 支持 多 线程 的 上 下 文 环境 。 以 银行 为 例 ， 如 果 deposit 方 法 和 withdraw 方 法 在 设计 时 没有 考虑 
应 用 于 多 线程 程序 中 ， 那 么 当 多 个 线程 并 发 执行 这 些 方 法 时 ， 可 能 会 导致 这 些 方法 的 交织 执行 ， 
从 而 产生 奇怪 的 账户 对 象 数据 。 

第 6 章 引 入 的 synchronized 关 键 字 是 应 用 在 Java 方 法 中 用 以 保证 一 次 只 能 有 一 个 线程 访问 对 象 。 
在 我 们 的 例子 中 ， 实 现 Account 接 口 的 类 可 以 将 方法 声明 成 同步 的 。 例 如 ; 

public synchronized void deposit (int amount) throws RemoteException{ 

/ 将 amount 数 量 的 钱 加 入 峰 户 会 额 

2 

当 一 个 线程 调用 某 个 对 象 的 同步 方法 时 ， 该 对 象 在 调用 期 间 被 一 直 锁 住 ， 这 时 如 果 另 一 个 线 
程 也 调用 该 同步 方法 ， 那 么 该 线程 将 被 阻塞 ， 直 到 相应 的 锁 被 释放 为 止 。 这 种 形式 的 同步 将 线程 
的 执行 分 散 到 不 同 的 时 间 中 ， 从 而 保证 对 一 个 对 象 的 实例 变量 的 访问 一 致 性 。 如 果 没 有 同步 机 制 ， 
那么 两 个 不 同 的 deposit 方 法 调用 可 能 在 对 方 未 更 新 前 读 取 账户 余额 一 一 导致 不 正确 的 数据 。 因 此 ， 
应 该 同步 所 有 访问 会 发 生变 化 的 实例 变量 的 方法 。 

免 受 其 他 线程 中 执行 的 并 发 操作 干扰 的 操作 称 为 原子 操作 。Java 语 言 中 的 同步 方法 是 实现 原子 
操作 的 途径 之 一 。 在 其 他 多 线程 服务 器 的 编程 环境 中 ， 为 了 保证 对 象 的 一 致 性 ， 对 象 上 的 操作 仍 
然 应 该 是 原子 操作 。 通 过 互 斥 机 制 ， 例 如 mutex， 可 实现 这 一 点 。 

通过 服务 器 操作 的 同步 加 强 客户 协同 客户 可 以 将 服务 器 作为 一 种 共享 资源 的 设施 。 -- 些 客 
户 调用 更 新 服务 器 上 对 象 的 操作 ， 而 另 一 些 客户 调用 方法 来 访问 对 象 便 可 实现 上 述 目的 。 上 述 同 
步 访 问 对 象 的 机 制 提供 了 大 多 数 应 用 中 所 需要 的 东西 一 一 避免 了 线程 相互 干扰 。 但 是 ， 某 些 应 用 
需要 线程 间 相互 通信 的 机 制 。 

例如 ， 会 出 现 这 种 情况 : 某 个 客户 的 操作 要 等 到 另 一 个 客户 操作 结束 后 才能 完成 。 一 个 典型 
的 例子 是 某 些 客户 是 生产 者 而 另 一 些 客户 是 消费 者 一 -消费 者 在 生产 者 提供 更 多 的 所 需 商品 前 必 
须 等 待 。 这 种 情况 在 客户 共享 某 种 资源 时 也 会 出 现 一 一 请 求 资 源 的 客户 必须 等 待 其 他 客户 释放 资 
源 。 在 本 章 的 后 面部 分 ， 我 们 还 会 看 到 ， 在 用 锁 或 时 间 葵 进行 事务 并 发 控制 时 也 会 有 类 似 的 情况 。 

第 6 章 介绍 的 Java notify 和 wait 方 法 允许 线程 以 一 种 能 够 解决 上 述 问 题 的 方式 相互 通信 。 这 两 个 
方法 必须 用 于 对 象 的 同步 方法 中 。 当 一 个 线程 调用 某 个 对 象 的 wait 方 法 后 ， 该 线程 被 挂 起 并 允许 其 
他 线程 执行 该 对 象 的 方法 。 线 程 通过 调用 notify 方 法 通知 等 待 该 对 象 的 线程 它 已 改变 了 该 对 象 的 -- 
些 数据 。 在 线程 等 待 时 ， 对 对 象 的 访问 仍 是 原子 的 ， 因 为 调用 wait 的 线程 把 放弃 锁 和 挂 起 自身 作为 
单个 原子 动作 。 当 线程 被 通知 重新 开始 时 ， 它 需要 重新 获得 对 象 上 的 锁 ， 继 续 wait 之 后 的 执行 。 而 
调用 notify 的 线程 (从 一 个 同步 方法 内 ) 在 它 执行 完 当前 方法 后 才 会 释放 对 象 锁 。 

现在 考虑 共享 对 象 Queue 的 实现 ，Queue 有 两 个 方法 : first 方 法 用 于 删除 并 返回 队列 中 的 第 一 
个 对 象 ，append 方 法 用 于 将 一 个 给 定 对 象 放 到 队列 尾部 。first 方 法 首先 检查 队列 是 否 为 空 ， 如 果 队 
列 为 空 则 调用 该 队列 的 wait 方 法 。 因 此 在 队列 为 空 时 ， 某 个 客户 调用 first 方 法 将 不 会 得 到 应 答 ， 必 
须 等 待 其 他 客户 向 队列 添加 内 容 一 一 append 方 法 在 将 对 象 加 入 队列 时 会 调用 notify， 这 使 得 等 待 队 
列 对 象 的 线程 能 继续 执行 ， 并 将 队列 中 的 第 一 个 对 象 返 回 给 客户 。 在 线程 通过 wait 和 notify 同 步 对 
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象 操作 时 ， 对 于 不 能 立即 满足 的 请 求 ， 服 务 器 将 暂时 挂 起 它们 ， 客 户 只 有 在 另 一 个 客户 产生 它们 
所 需 的 数据 后 才能 得 到 应 答 。 

在 后 面 关于 事务 锁 的 小 节 中 ， 我 们 将 讨论 利用 带 同步 操作 的 对 象 来 实现 一 个 事务 锁 。 当 某 个 
客户 试图 获取 一 个 锁 时 ， 它 必须 等 待 其 他 客户 释放 该 锁 。 

如 果 没 有 这 种 线程 同步 机 制 ， 那 么 请 求 不 能 马上 得 到 满足 的 客户 ， 例 如 客户 在 一 个 空 队列 上 
调用 first 方 法 ， 会 被 告 之 以 后 重 试 。 这 种 方式 是 不 能 令 人 满意 的 ， 因 为 它 导致 客户 不 断 轮 询 服务 器 ， 
服务 器 也 要 不 断 执行 额外 的 请 求 。 另 外 ， 服 务 器 在 处 理 这 些 轮 询 时 ， 其 他 客户 必须 等 待 ， 这 也 造 
成 了 不 公平 。 


13.1.2 事务 的 故障 模型 


Lampson[1981a] 提 出 过 一 个 分 布 事务 的 故障 模型 ， 包 括 了 硬盘 故障 、 服 务 器 故障 以 及 通信 故 
障 。 读 故障 模型 声称 ， 可 以 保证 算法 在 出 现 可 预见 故障 时 正确 工作 ,但 是 对 于 不 可 预见 的 灾难 性 
故障 则 不 能 保证 正常 处 理 。 尽 管 会 出 现 错误 ， 但 是 可 以 在 发 生 不 正确 行为 之 前 发 现 并 处 理 这 些 错 
误 。Lampson 的 故障 模型 包括 以 下 故障 : 

* 对 持久 性 存储 的 写 操作 可 能 发 生 故 障 (或 因为 写 操作 无 效 或 因为 写 人 错误 的 值 )。 例 如 ， 将 

数据 写 到 错误 的 磁盘 块 被 认为 是 一 个 灾难 性 故障 。 文 件 存储 有 可 能 损坏 。 从 持久 性 存储 中 读 

数据 时 可 根据 校 验 和 来 判断 数据 块 是 否 损坏 。 

* 服务器 可 能 偶尔 崩 潢 。 当 一 个 崩 澳 的 服务 器 由 一 个 新 进程 替代 后 ， 它 的 可 变 内 存 被 重 置 ， 崩 

省 之 前 的 数据 均 已 丢失。 此 后 新 进程 执行 一 个 恢复 过 程 ， 根 据 持久 存储 中 的 信息 以 及 从 其 他 进 

程 获得 的 信息 设置 对 象 的 值 ， 包 括 与 两 阶段 提交 协议 有 关 的 对 象 的 值 ( 见 第 14.6 节 )。 当 一 个 

处 理 器 出 现 故障 时 ， 服 务 器 也 会 崩溃 ， 这 样 它 就 不 会 发 送 错误 的 消息 或 将 错误 的 值 写 人 持久 存 

储 ， 即 它 不 会 产生 随机 故障 。 服 务 器 崩溃 可 能 出 现在 任何 时 候 ， 特 别 是 在 恢复 时 也 可 能 出 现 。 

“消息 传递 可 能 有 任意 长 的 延迟 。 消 息 可 能 丢失 、 重 复 或 者 损坏 。 接 收 方 (通过 校 验 和 ) 能 够 

检测 到 受 损 消 息 。 未 发 现 的 受 损 消 息 和 伪造 的 消息 会 导致 灾难 性 故障 。 

利用 这 个 关于 持久 存储 、 处 理 器 和 通信 的 故障 模型 能 够 设计 出 一 个 可 靠 系 统 ， 该 系统 的 组 件 
可 对 付 任何 单一 故障 ， 并 提供 一 个 简单 的 故障 模型 。 特 别 是 ， 可 靠 存 储 可 以 在 出 现 一 个 write 操 作 
故障 或 者 进程 崩溃 故障 的 情况 下 提供 原子 写 操作 。 它 是 通过 将 每 一 个 数据 块 复制 到 两 个 磁盘 块 上 
实现 的 。 此 时 一 个 write 操作 作用 于 两 个 磁盘 块 上 ， 在 一 个 磁盘 出 现 故 障 的 情况 下 ， 另 一 个 好 的 数 
据 块 能 提供 正确 数据 。 可 靠 处 理 器 使 用 可 靠 存储 ， 用 于 在 崩溃 后 恢复 对 象 。 可 通过 可 靠 的 远程 过 
程 调用 机 制 来 屏蔽 通信 错误 。 


13.2 事务 


在 某 些 情况 下 ， 客 户 要 求 给 服务 器 的 一 组 请 求 是 原子 的 ， 也 就 是 说 ; 

1) 它们 不 受 其 他 并 发 客户 操作 的 干扰 。 

2) 所 有 操作 或 者 全 部 成 功 完成 ， 或 者 在 服务 器 故障 时 不 会 产生 任何 影响 。 

让 我 们 回 到 银行 的 例子 来 说 明 事 务 概念 。 当 一 个 客户 对 特定 账 
户 操作 时 ， 它 首先 利用 lookUp 根 据 用 户 名 查询 到 相应 的 银行 账户 ， 
然后 在 相关 账户 上 进行 deposit、withdraw 或 者 getBalance 操 作 。 我 们 
的 例子 使 用 了 账户 名 为 A、B 和 C 的 三 个 账户 。 客 户 查找 这 些 名 字 并 
将 它们 的 引用 存储 在 Account 类 型 的 变量 a、b 和 c 中 。 为 了 简化 起 见 ， 














Transaction T: 
a.withdraw (100) ; 
b.deposit (100) : 
c.withdraw (200) ， 
b.deposit (200) ; 





我 们 略 去 了 由 名 字 查找 账户 和 变量 声明 等 细节 。 一 一 
图 13-2 给 出 了 一 个 简单 客户 事务 的 例子 ， 该 事务 指定 了 若干 涉 “图 132 一 个 客户 的 银行 事务 
及 账户 A、B 和 C 的 动作 。 前 两 个 动作 是 从 账户 A 转账 100 元 至 账户 B， 后 两 个 操作 从 账户 C 转 账 200 
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元 至 账户 B。 客 户 是 通过 一 个 取款 操作 和 一 个 存款 操作 完成 转账 的 。 

事务 起 源 于 数据 库 管理 系统 。 数 据 库 管理 系统 中 的 事务 是 访问 数据 库 的 一 个 程序 的 执行 。 事 
务 后 来 通过 事务 文件 服务 器 ， 例 如 XDFS[Mitchell and Dion 1982]， 被 引入 到 分 布 式 系统 中 。 在 事 
务 文件 服务 器 中 ， 事 务 是 指 客户 执行 一 组 文件 操作 请 求 。 在 若干 研究 项 目 (如 Argus[Liskov 1998] 
和 Arjuna[Shrivastava et al. 1991]) 中 ， 事务 又 被 引入 分 布 式 对 象 系统 。 这 时 的 事务 是 指 一 组 客户 
请 求 的 执行 ， 如 图 13-2 的 例子 所 示 。 从 客户 角度 来 看 ， 事 务 是 组 成 一 个 步骤 的 -组 操作 ， 它 将 服务 
器 的 数据 从 一 个 - 致 性 状态 转换 到 另 一 个 一 致 性 状态 。 

事务 可 以 作为 中 间 件 的 一 部 分 提供 。 例 如 ，CORBA 提 供 了 对 象 事务 服务 规范 [OMG 2003]， 它 
的 IDL 接 口 允许 客户 事务 访问 多 个 服务 器 上 的 多 个 对 象 。 客 户 可 利用 有 关 操 作 来 指定 事务 的 开始 和 
结束 。 客 户 ORB 为 每 个 事务 维持 一 个 上 下 文 ， 该 上 下 文 随 着 操作 调用 而 传递 。 在 CORBA 中 ， 事 务 
对 象 在 事务 作用 域内 被 调用 ， 通 常 有 一 些 与 它们 相关 的 持久 存储 。 

在 以 上 的 讨论 中 ， 事 务 总 是 应 用 到 可 恢复 对 象 上 并 具有 原子 性 。 这 样 的 事务 常常 被 称 作 原子 
享 务 ( 见 下 面 的 讨论 )。 这 里 的 原子 性 包含 两 方面 的 含义 : 

全 有 或 全 无 ， 一 个 事务 或 者 成 功 完成 ， 使 其 操作 的 所 有 效果 都 记录 到 相关 对 象 中 ， 或 者 由 于 
故障 或 有 意 终止 等 原因 而 不 留 下 任何 效果 。 这 种 全 有 或 全 无 本 身 又 包含 两 层 含义 ; 

* 故障 原子 性 ， 即使 服务 器 崩溃 ， 事 务 的 效果 也 是 原子 的 。 

“持久 性 ;一旦 事务 成 功 完成 ， 它 的 所 有 效果 将 被 保存 到 持久 存储 中 。 这 里 的 “持久 存储 ” 指 

的 是 磁盘 或 其 他 永久 介质 中 的 文件 。 文 件 中 存放 的 数据 不 受 服务 器 崩溃 影响 。 

隔离 性 : 每 个 事务 的 执行 不 受 其 他 事务 的 影响 。 换 言 之 ， 事 务 在 执行 过 程 中 的 中 间 效果 对 其 
他 事务 是 不 可 见 的 。 











ACID 特性 ”Hairder 和 Reuter[1983] 建 议 用 “ACID” 表 示 事 务 的 下 列 属性 : 
原子 性 (Atomicity ) ， 事务 必须 是 全 有 或 全 无 。 

一 致 性 (Consistency) : 事务 将 系统 从 一 个 一 致 性 状态 转换 到 另 一 个 一 致 性 状态 。 

隔离 性 (Isolation ) 。 

持久 性 (Durability ) 。 

在 我 们 的 事务 属性 列表 中 没有 包括 “一 致 性 "， 因 为 它 通常 是 服务 器 和 客户 端 程序 员 的 责 
应 由 他 们 确保 事务 使 得 数据 库 是 一 致 的 。 

作为 一 致 性 的 一 个 例子 ， 假 设 在 银行 的 例子 中 ， 一 个 对 象 持 有 所 有 账户 余额 的 总 计 ， 该 值 
被 作为 branchTotal 的 结果 。 客 户 或 者 通过 使 用 branchTotal 或 者 在 每 个 账户 上 调用 getBalance 来 
得 到 所 有 账户 余额 的 总 计 。 从 一 致 性 的 角度 看 ， 这 两 种 方法 应 该 得 到 相同 的 结果 。 为 了 维护 这 
个 一 致 性 ，deposit 和 withdraw 操 作 必 须 更 新 拥有 所 有 账户 余额 总 计 的 对 象 。 


任 
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为 了 支持 故障 原子 性 和 持久 性 要 求 ， 对 象 必须 是 可 恢复 的 。 当 服务 器 进程 由 于 硬件 故障 或 软 
件 错误 而 崩溃 时 ， 所 有 已 完成 事务 的 更 新 必须 保留 在 持久 存储 中 。 这 样 ， 当 服务 器 被 新 的 进程 替 
代 后 ， 它 可 以 利用 这 些 更 新 信息 来 恢复 对 象 ， 以 达到 全 有 或 全 无 的 要 求 。 当 服务 器 确认 完成 了 一 
个 客户 事务 时 ， 事 务 中 所 有 对 对 象 的 改变 必须 已 经 记录 在 持久 存储 中 。 

支持 事务 的 服务 器 必须 有 效 地 对 操作 进行 同步 以 保证 事务 之 间 的 隔离 性 。 最 简单 的 方法 是 串 
行 执行 事务 一 一 可 以 按 任 意 次 序 一 次 一 个 地 执行 事务 。 遗 憾 的 是 ， 这 种 解决 方案 对 有 多 个 交互 用 
户 共享 其 资源 的 服务 器 而 言 是 不 可 接受 的 。 在 我 们 的 银行 例子 中 ， 就 需要 同时 允许 多 个 银行 柜员 
执行 联机 银行 事务 。 

任何 支持 事务 的 服务 器 的 目标 是 最 大 程度 地 实现 并 发 。 因 此 ， 如 果 事 务 的 并 发 执行 与 串 行 执 
行 具 有 相同 的 效果 ， 即 它们 是 囊 行 等 价 的 或 可 囊 行 化 的 ， 那 么 可 允许 事务 并 发 执行 。 
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事务 功能 可 加 到 有 可 恢复 对 象 的 服务 器 上 。 每 个 事务 都 由 协调 者 创建 和 管理 ， 协 调 者 实现 了 
图 13-3 中 的 Coordinator 接 口 。 协 调 者 为 每 个 事务 赋予 一 个 事务 标识 符 (TID)。 客 户 调用 协调 者 的 
openTransaciton 方 法 来 引 和 人 一 个 新 事务 一 分配 并 返回 一 个 事务 标识 符 。 当 事务 结束 时 ， 客 户 调用 
closeTransaction 方 法 表示 事务 结束 一 一 该 事务 访问 的 所 有 可 恢复 对 象 都 应 该 被 保存 。 如 果 由 于 某 
种 原因 ， 客 户 需要 放弃 事务 ， 那 么 它 调 用 abortTransaction 方 法 一 一 事务 的 所 有 效果 将 被 取消 。 








openTransaction{} — trans: 
开始 个 新 事务 ， 并 返回 该 事务 的 唯一 TID。 该 标识 符 将 用 于 事务 的 其 他 操作 中 。 
closeTransaction (irans) 一 (commit. abort); 


结束 事务 ;如果 返回 值 为 commit， 表 示 该 事务 被 成 功 提交 ， 否 则 返回 abort:， 表 示 该 事务 被 放弃 。 


abortTransaction(trans); 


放弃 事务 。 

















图 13-3 Coordinator 接 口 的 操作 


事务 的 完成 需 通 过 一 个 客户 程序 、 若 干 可 恢复 对 象 和 一 个 协调 者 之 间 的 合作 。 客 户 指定 了 组 
成 事务 的 一 系列 针对 可 恢复 对 象 的 操作 。 为 了 实现 这 一 点 ， 客 户 在 每 次 调用 中 发 送 由 
openTransaction 返 回 的 事务 标识 符 。 一 种 可 能 的 实现 方式 是 将 TID 作 为 可 恢复 对 象 的 每 个 方法 的 一 
个 额外 参数 。 例 如 ， 在 银行 服务 中 ，deposit 操 作 可 能 定义 成 : 

deposit (trans, amount) 

侨 TID 为 trans 的 芷 务 中 给 账户 郑 喜 amount 

如 果 事 务 作 为 中 间 件 提供 ， 那 么 所 有 介 于 openTransaction 和 closeTransaction 或 abortTransaction 
之 间 的 远程 调用 都 隐 式 地 传递 TTD。 这 正 是 CORBA 事 务 服务 的 做 法 。 因 此 ， 在 我 们 的 例子 中 不 再 
列 出 TID。 

通常 ， 事 务 在 客户 调用 closeTransaction 后 结束 。 如 果 事 务 正常 进行 ， 那 么 closeTransaction 的 
返回 值 表明 事务 被 提交 一 一 它 给 客户 一 个 承诺 ;事务 所 请 求 的 所 有 更 新 都 被 永久 记录 。 此 后 的 其 
他 事务 访问 同 … 数 据 时 将 看 到 这 些 更 新 的 结果 。 

另 一 种 情况 是 ， 事 务 由 于 某 些 原因 ， 比 如 事务 自身 的 特性 、 与 其 他 事务 发 生 冲突 或 者 计算 机 
或 进程 崩溃 ， 而 不 得 不 放 弈 。 一 旦 事务 被 放弃 ， 参 与 方 (可 恢复 对 象 和 协调 者 ) 必须 保证 在 持久 
存储 中 ， 在 对 象 及 其 副本 上 清除 所 有 效果 ， 使 该 事务 的 影响 对 其 他 事务 不 可 见 。 

事务 或 者 成 功 执行 ， 或 者 以 两 种 方式 之 一 被 放弃 一 一 客户 放弃 事务 (使 用 abortTransaction 调 
用 ) 或 服务 器 放弃 事务 。 图 13-4 分 别 列 出 了 事务 的 3 个 执行 历史 。 在 这 几 种 情况 中 ， 我 们 都 称 事务 
执行 失败 。 














成 功 执行 被 客户 放弃 被 服务 器 放弃 
OpenTransaction openTransaction openTransaction 
操作 操作 操作 
操作 操作 操作 


操作 操作 向 客户 报告 ERROR 


closeTransaction abortTransaction 





图 13-4 事务 执行 历史 
进程 崩溃 时 的 服务 器 动作 ”如 果 服 务 器 进程 意外 崩溃 ， 它 最 终 会 被 新 的 服务 器 进程 替代 。 新 
的 服务 器 进程 将 放弃 所 有 未 提交 事务 ， 并 使 用 一 个 恢复 过 程 将 对 象 的 值 恢复 成 最 近 提 交 的 事务 所 
产生 的 值 。 为 了 处 理事 务 过 程 中 意外 崩溃 的 客户 ， 服 务 器 给 每 个 事务 都 设 定 一 个 过 期 时 间 ， 服 务 
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器 将 放弃 在 过 期 时 间 前 还 未 完成 的 事务 。 

服务 器 进程 崩溃 时 的 客户 动作 “如果 服 务 器 在 执行 事务 期 间 崩溃 ， 那么 客户 在 超时 后 会 接收 
到 一 个 异常 ， 从 而 了 解 到 服务 器 崩溃 。 如 果 在 执行 事务 期 间 服 务 器 崩溃 且 被 新 服务 器 进程 替代 ， 
那么 未 完成 的 事务 将 不 再 有 效 ， 当 客户 发 起 新 操作 时 它 会 收 到 异常 。 在 任何 一 种 情况 下 ， 客 户 需 
要 建立 一 个 计划 (可 能 通过 人 工 干预 等 方式 ) 来 完成 或 放弃 事务 所 在 的 任务 。 


13.2.1 并 发 控制 

本 节 将 用 银行 的 例子 说 明 并 发 事务 中 的 两 个 著名 问题 一 一 “更 新 丢失 ”问题 和 “不 一 致 检索 ” 
问题 。 然 后 ， 本 节 给 出 如 何 利用 事务 的 串 行 等 价 执行 来 避免 这 些 问题 。 我 们 假设 deposit、withdraw、 
getBalance 和 setBalance 都 是 同步 操作 ， 即 它 对 记录 账户 余额 的 实例 变量 的 效果 是 原子 的 。 

更 新 丢失 问题 更 新 丢失 问题 可 用 银行 账户 A、B 和 C 上 的 两 个 事务 来 说 明 。 这 3 个 账户 的 初始 
余额 分 别 是 $100、$200 和 $300。 事 务 T 将 资金 由 账户 A 转 到 账户 B， 事 务 U 将 资金 由 账户 C 转 到 账户 
B。 两 次 转账 的 金额 都 是 当前 B 账 户 余额 的 10%。 因 此 ， 两 次 转账 的 最 终 效果 是 两 次 以 10% 的 幅度 
增加 账户 B 的 余额 ，B 的 最 终 值 为 $242.。 

下 面 来 看 看 事务 T 和 事务 U 并 发 执行 的 效果 ， 如 图 13-5 所 示 。 两 个 事务 获得 账户 B 的 余额 $200， 
然后 存 人 $20。 结 果 是 将 账户 B 的 余额 提高 了 $20， 而 不 是 $42， 这 是 不 正确 的 。 这 就 是 所 谓 的 “更 
新 丢失 ”问题 。 事 务 U 的 更 新 被 丢失 是 因为 事务 T 覆 盖 了 它 的 更 新 。 两 个 事务 在 写 入 新 数据 前 读 出 
的 都 是 旧 数 据 。 

在 图 13-5 的 后 半 部 分 ， 我 们 列 出 了 对 相应 账户 余额 有 影响 的 操作 (阴影 部 分 )， 我 们 假定 某 行 
上 的 操作 在 该 行 之 前 的 行 执行 之 后 执行 。 


事务 7; Hi 3 有 

balance = b.getBalance( ); : balance = 2 为 

b.setBalance(balance* 1.1); 注 eon 
sawithdraw(balancell0) «+ cwithdraw(balance/10) 


balance = b.getBalance(); $200 


balance = b.getBalance(); $200 
b.setBalance(balance*1.1); $220 
b.setBalance(balance*].1): $220 
a.withdraw(balance/10) $80 





c.withdraw(balance/10) $280 
图 13-5 更 新 丢失 问题 


不 一 致 检索 ”图 13-6 列 出 了 另 一 个 与 银行 账户 有 关 的 例子 : 事务 V 将 资金 由 账户 A 转 到 账户 B， 
事务 W 调 用 branchTotal 方 法 获得 银行 所 有 账户 的 总 余额 。 账 户 A 和 B 的 最 初 余额 都 是 $200 ， 但 是 
branchTotal 计 算 A 和 B 的 总 和 ， 结 果 却 是 $300， 这 是 错误 的 。 这 就 是 “不 一 致 检索 ”问题 。 事 务 W 
的 检索 是 不 一 致 的 ， 因 为 在 W 计 算 总 和 的 时 候 ，V 已 经 完成 了 转账 操作 中 的 取款 部 分 。 

事务 
a.withdraw( 100) 

b.deposit(100) 

a.withdraw( 100); 


total = a.getBalance() $100 
total = total+b.getBalance() $300 


total = total+c.getBalance() 


b.deposit( 100) 





图 13-6 不 一 致 检索 问题 
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串 行 等 价 性 ”如 果 每 个 事务 知道 它 单独 执行 的 正确 效果 ， 那 么 我 们 可 以 推断 出 这 些 事务 按 某 
种 次 序 一 次 执行 一 个 事务 的 结果 也 是 正确 的 。 如 果 并 发 事务 交错 执行 操作 的 效果 等 同 于 按 某 种 次 
序 一 次 执行 一 个 事务 的 效果 ， 那 么 这 种 交错 执行 是 一 种 串 行 等 价 的 交错 执行 。 我 们 说 两 个 事务 具 
有 相同 效果 ， 是 指 读 操 作 返 回 相 同 的 值 ， 并 且 事 务 结束 时 ， 所 有 对 象 的 实例 变量 也 具有 相同 的 值 。 

使 用 串 行 等 价 性 作为 标准 来 判断 并 发 执行 是 否 正确 ， 可 以 防止 更 新 丢失 和 不 一 致 检索 问题 的 
出 现 。 

在 两 个 事务 都 读 取 了 一 个 变量 的 旧 数 据 ， 并 用 它 来 计算 新 数据 时 ， 会 出 现 更 新 丢失 问题 。 如 
果 两 个 事务 一 前 一 后 执行 ， 就 不 会 发 生 这 个 问题 ， 因 为 后 执行 的 事务 将 读 取 到 前 面 执行 的 事务 更 
新 后 的 数据 。 由 于 两 个 事务 进行 串 行 等 价 的 交错 执行 能 够 产生 与 串 行 执行 同样 的 效果 ， 所 以 通过 
串 行 等 价 ， 我 们 能 够 解决 更 新 丢失 问题 。 图 13-7 列 出 了 这 样 的 一 种 交错 执行 ， 其 中 影响 共享 账户 B 
的 操作 实际 上 是 串 行 的 ， 因 为 事务 T 在 事务 U 之 前 完成 了 所 有 对 B 的 操作 。 另 一 种 具有 该 性 质 的 交 
错 执行 是 事务 U 在 事务 T 开 始 之 前 完成 它 对 账户 B 的 操作 。 









事务 T: ps | 和 
‘balance = b.getBalance() ~ balance = b.getBalance() 
‘b.setBalance(balance*1.1) bsetBalance(balance*1.1). 
“awithdraw(balance/10) : cwithdraw( balance/10) 






balance = b.getBalancel() $200 
b.setBalance(balance*]1.1) $220 balance = b.getBalancel() $220 
b.setBalance(balance*].1) $242 




















a.withdraw(balance/10) $80 


c.withdraw(balance/10) $278 


图 13-7 串 行 等 价 地 交错 执行 事务 T 和 U 


现在 我 们 在 事务 V 将 资金 从 账户 A 转账 到 B 而 事务 W 正 在 获取 所 有 余额 总 和 ( 见 图 13-6) 的 情况 
下 ， 考 虑 与 不 一 致 检索 有 关 的 串 行 等 价 性 的 效果 。 不 一 致 检索 在 某 个 检索 事务 与 一 个 更 新 事务 并 发 
运行 的 时 候 出 现 。 如 果 检 索 事务 在 更 新 事务 之 前 或 之 后 执行 ， 问 题 就 不 会 发 生 。 一 个 检索 事务 和 一 
个 更 新 事务 进行 申 行 等 价 的 交错 执行 (如 图 13-8 中 的 例子 )， 可 以 防止 不 一 致 检索 的 发 生 。 
a ; ride 
ring 










a.withdraw( 100); 
b.deposit( 100) 








total = a.getBalancel() $100 
total = total+b.getBalance() $400 
total = total+c.getBalancel() 







图 13-8 串 行 等 价 地 交错 执行 事务 V 和 W 


冲突 操作 ”如 果 两 个 操作 的 执行 效果 和 它们 的 执行 次 序 相 关 ， 我 们 称 这 两 个 操作 相互 冲突 。 
为 简化 讨论 ， 我 们 考虑 操作 read 和 write。read 读 取 对 象 值 ， 而 write 更 新 对 象 值 。 一 个 操作 的 效果 是 
指 由 write 操作 设置 的 对 象 值 和 由 read 操 作 返 回 的 结果 。 图 13-9 给 出 了 read 和 write 操作 的 冲突 规则 。 
对 任意 两 个 事务 ， 可 以 确定 它们 之 间 冲 突 操 作 的 访问 次 序 。 那 么 ， 串 行 等 价 性 可 以 从 冲突 操 
作 角 度 定义 如 下 : 
两 个 事务 捉 行 等 价 的 充分 必要 条 件 是 ， 两 个 事务 中 所 有 的 冲突 操作 都 按 相同 的 次 序 


524 


un 
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在 它们 访问 的 对 象 上 执行 。 


不 同事 务 的 操作 是 否 冲 突 
read read 否 由 于 两 个 read 操 作 的 执行 效果 不 依赖 这 两 个 操作 的 执行 次 序 





read write 是 由 于 一 个 read 操 作 和 一 个 write 操作 的 执行 效果 依赖 于 它们 的 执行 次 序 
write write 是 由 于 两 个 write 操作 的 执行 效果 依赖 于 这 两 个 操作 的 执行 次 序 





图 13-9 Read 和 Write 操作 的 冲突 规则 
考虑 下 面 的 例子 ， 事务 T 和 事务 U 定 义 如 下 : 


T: x=read(i); write(i, 10); write(j, 20); 

U: y=read(j); write(j, 30); z=read(i); 

图 13-10 列 出 了 它们 的 一 种 交错 执行 过 程 。 注 意 ， 每 个 事务 相当 于 另 一 个 事务 对 对 象 ; 和 的 访 
问 是 串 行 的 ， 因 为 事务 T 对 变量 ; 的 访问 都 在 事务 U 
对 i 访问 之 前 进行 ， 而 U 对 变量 j 的 访问 都 在 事务 T 对 


和 2 | 





j 访 问 之 前 进行 。 但 是 这 个 执行 次 序 不 是 串 行 等 价 的 ， pe 

因为 对 两 个 对 象 的 冲突 操作 并 未 按照 相同 次 序 执行 y= read()) 

串 行 等 价 的 执行 次 序 要 求 满足 下 面 两 个 条 件 之 一 ， wrife(j 30) 
1) 事务 T 在 事务 U 之 前 访问 i， 并 且 事 务 T 在 事 write(j, 20) 

务 U 之 前 访问 j。 z= read (i) 


2) 事务 U 在 事务 T 之 前 访问 i， 并 且 事 务 U 在 事 
务 T 之 前 访问 j。 

串 行 等 价 性 可 作为 一 个 标准 用 于 生成 并 发 控制 协议 。 并 发 控制 协议 用 于 将 访问 对 象 的 并 发 事 
务 串 行 化。 有 3 种 常用 的 并 发 控制 方法 : 锁 、 乐 观 并 发 控制 和 时 间 惟 排序 。 大 多 数 实际 系统 利用 锁 
方法 (参见 13.4 节 的 讨论 )。 使 用 锁 方 法 时 ， 对 象 在 被 访问 之 前 ， 服 务 器 就 为 该 对 象 设置 一 个 锁 ， 
并 在 该 锁 上 标记 上 事务 标记 ， 当 事务 完成 后 服务 器 再 删除 这 些 锁 。 某 个 对 象 被 锁 住 后 ， 只 有 锁 住 
该 对 象 的 事务 可 以 访问 它 ， 而 其 他 的 事务 必须 等 到 该 对 象 被 解锁 ， 或 者 某 些 情况 下 共享 该 锁 。 使 
用 锁 可 能 会 导致 死 锁 ， 此 时 ， 事 务 相互 等 待 其 他 事务 释放 锁 。 例 如 ， 有 了 两 个 事务 各 自 锁 住 了 一 个 
对 象 ， 而 又 要 访问 被 对 方 锁 住 的 对 象 ， 就 会 产生 死 锁 。 关 于 死 锁 和 它 的 补救 方法 ， 我 们 将 在 13.4.1 
节 讨 论 。 

13.5 节 将 描述 乐观 并 发 控制 。 在 乐观 并 发 控制 方案 中 ， 事 务 能 够 一 直 运行 而 不 会 被 锁 住 ， 当 它 
请 求 提交 时 ， 服 务 器 检测 该 事务 是 否 执行 了 与 其 他 并 发 事务 相 冲 突 的 操作 ， 一 旦 检测 出 冲突 ， 服 
务 器 就 放弃 该 事务 并 重新 启动 该 事务 。 检 测 的 目的 是 为 了 保证 所 有 对 象 是 正确 的 。 

时 间 戳 排序 将 在 13.6 节 描述 。 在 时 间 蕉 排序 中 ， 服 务 器 记录 对 每 个 对 象 最 近 一 次 读 写 访问 的 时 
间 。 事 务 访问 对 象 时 ， 需 要 比较 事务 的 时 间 改 和 对 象 的 时 间 戳 ， 来 决定 是 否 允 许 立 即 访问 、 延 迟 
访问 或 拒绝 访问 该 对 象 。 如 果 决 定 延迟 访问 ， 那 么 该 事务 就 要 等 待 ， 如 果 决 定 拒绝 访问 ， 那 么 将 
放弃 该 事务 。 

在 检测 到 操作 冲突 之 后 ， 一 般 通过 让 一 个 客户 事务 等 待 另 一 个 事务 或 是 重新 运行 事务 或 是 两 
者 的 结合 来 实现 并 发 控制 。 


13.2.2 事务 放弃 时 的 恢复 

服务 器 必须 记录 所 有 已 提交 事务 的 效果 ， 但 不 保存 被 放弃 事务 的 效果 。 因 此 ， 服 务 器 必须 保 
证 事务 被 放弃 后 ， 它 的 更 新 作用 完全 取消 ， 而 不 影响 其 他 并 发 事务 。 

本 市 以 银行 的 例子 阐述 与 事务 放弃 相关 的 两 个 问题 。 这 两 个 问题 是 “ 脏 数据 读 取 ”和 “过 早 
写 和 人“， 这 两 个 问题 在 事务 的 串 行 等 价 执行 中 仍然 出 现 。 这 两 个 问题 与 对 象 上 的 操作 效果 有 关 ， 如 


图 13-10 非 串 行 等 价 地 执行 事务 T 和 U 的 操作 


影响 银行 账户 的 余额 。 为 简化 讨论 , 我 们 将 所 有 的 操作 分 为 read 操 作 和 write 操作 ,在 我 们 的 例子 中 ， 
getBalance 是 read 操 作 而 setBalance 是 write 操作 。 
脏 数据 读 取 事务 的 隔离 性 要 求 未 提交 事务 的 状态 对 其 他 事务 是 不 可 见 的 。 如 果 某 个 事务 读 
取 了 另 一 个 未 提交 事务 写 入 的 数据 ， 那 么 这 种 交互 会 引起 “ 脏 数 据 读 取 ” 问 题 。 考 虑 图 13-11 中 的 
事务 执行 情况 ， 事 务 T 读 取 账 户 A 的 余额 并 为 它 增加 $10， 事 务 U 也 读 取 A 的 余额 并 给 它 增加 $20， 这 
两 个 事务 的 执行 是 串 行 等 价 的 。 现 在 假设 事务 U 提 交 之 后 事务 T 被 放弃 ， 由 于 账户 A 的 余额 必须 恢 
复 到 它 的 初始 值 ， 所 以 事务 U 所 读 取 的 数据 是 一 个 从 不 存在 的 值 。 我 们 称 事务 U 进 行 了 一 次 脏 数 据 
读 取 。 因 为 它 已 经 被 提交 ， de sient 
7 
~ a.getBalancel() a.getBalance( ) 


a.setBalance(balance + 10) a.setBalance(balance + 20) 
balance = a.getBalancel() $100 


a.setBalance(balance + 10) $110 


balance = a.getBalance() $110 
a.setBalance(balance + 20) $130 
commit transaction 

abort transaction 








图 13-11 事务 T 放 弃 时 的 脏 数据 读 取 


事务 可 恢复 性 ”如 果 某 个 事务 (例如 U) 访问 了 被 放弃 事务 的 更 新 结果 ， 并 且 已 提交 ， 那 么 服 
务 器 的 状态 就 不 可 恢复 。 为 了 确保 不 出 现 这 种 情况 ， 所 有 进行 了 脏 数 据 读 取 的 事务 (例如 U) 必须 
推迟 提交 。 可 恢复 的 策略 是 推迟 事务 提交 ， 直 到 它 读 取 更 新 结果 的 其 他 事务 都 已 提交 。 在 我 们 的 
例子 中 ， 事 务 U 必 须 延 迟到 事务 T 提 交 后 才能 提交 。 如 果 事 务 T 放 弃 了 ， 那 么 事务 U 也 必须 放弃 。 

连锁 放弃 ”在 图 13-11 中 ， 假 设 事务 U 推 迟 提交 直到 事务 T 被 放弃 ， 那 么 此 时 事务 U 也 要 放弃 。 
遗憾 的 是 ， 其 他 观察 到 U 结 果 的 事务 同样 也 要 放弃 。 这 些 事务 的 放弃 可 能 导致 后 续 更 多 的 事务 被 放 
弃 。 这 种 情况 称 为 连锁 放 齐 。 防 止 这 种 情况 出 现 的 方法 是 ， 只 允许 事务 读 取 已 提交 事务 写 入 的 对 
象 。 为 了 保证 这 一 点 ， 读 某 对 象 的 操作 必须 推迟 到 写 该 对 象 数 据 的 事务 提交 或 放弃 。 防 止 连锁 放 
弃 是 一 个 比 保证 事务 可 恢复 性 更 强 的 条 件 。 

过 早 写 入 ”考虑 事务 放弃 隐 含 的 另 一 种 可 能 结果 。 它 涉及 两 个 事务 针对 同一 个 对 象 进行 write 
操作 。 在 图 13-12 中 ， 账户 人 上 上 的 事务 Tf 和 龙 务 U 都 调用 setBalance。 于 入 并 入 类 ， 账户 A 的 余额 是 
$100， 图 中 的 事务 执行 是 串 行 等 价 的 ， 事 务 T 同时 史 ye 
将 余额 更 改 为 $105， 事 务 U 将 余额 更 改 为 $110。 
如 果 事 务 U 被 放弃 而 事务 T 提 交 ， 那 么 余额 将 恢 
复 为 $105。 a.setBalance(105) $105 

一 些 数据 库 系 统 在 放弃 事务 时 ， 将 变量 的 Es $110 
值 恢复 到 该 事务 所 有 write 操 作 的 “前 映像 ”。 ee 
在 我 们 的 例子 中 ，A 的 初始 值 是 $100， 它 是 事 | 
务 T 的 write“ 前 映像 ”， 类 似 地 ， 事 务 U 的 write 前 映像 是 $S105。 所 以 ， 如 果 事 务 U 放 弃 了 ， 我 们 可 得 
到 正确 的 账户 余额 $105。 

现在 考虑 事务 U 提 交 而 事务 T 放 弃 的 情况 。 此 时 ， 余 额 应 该 是 $S110， 但 事务 T 的 write“ 前 映像 ” 
是 $100， 所 以 我 们 最 终 获得 了 $100 的 错误 值 。 类 似 地 ， 如 果 事 务 T 先 被 放弃 接着 U 也 被 放弃 ， 由 于 
D0 的 write 前 映像 是 $105， 所 以 我 们 得 到 的 账户 余额 为 $105， 但 是 正确 的 数值 应 该 是 $100。 

为 了 保证 使 用 前 映像 进行 事务 恢复 时 获得 正确 的 结果 ，write 操 作 必 须 等 到 前 面 修改 同一 对 象 
的 其 他 事务 提交 或 放弃 后 才能 进行 。 
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事务 的 严格 执行 ”为 了 避免 “ 脏 数 据 读 取 ”和 “过 早 写 入 ”， 通 常 要 求 事务 推 迟 read 操 作 和 
write 操作 。 如 果 read 操 作 和 write 操作 都 推迟 到 写 同一 对 象 的 其 他 事务 提交 或 放弃 后 才 进 行 ， 那 么 
这 种 执行 被 称 为 是 严格 的 。 事 务 的 严格 执行 可 以 真正 保证 事务 的 隔离 性 。 

临时 版 本 ”对 于 参与 事务 的 可 恢复 对 象 服务 器 ， 它 必须 保证 事务 放弃 后 ， 能 清除 所 有 对 象 的 
更 新 。 为 了 达到 这 个 目的 ， 事 务 中 所 有 的 更 新 操作 都 是 针对 对 象 的 挥发 性 存储 中 的 临时 版 本 完成 。 
每 个 事务 都 有 本 事务 已 更 改 的 对 象 的 临时 版 本 集 。 事 务 的 所 有 更 新 操作 将 值 存 储 在 自己 的 临时 版 
本 中 ， 如 果 可 能 ， 事 务 的 访问 操作 就 从 事务 的 临时 版 本 中 取 值 ， 如 果 取 值 失败 ， 再 从 对 象 取 值 。 

只 有 当 事 务 提交 时 ， 临 时 版 本 的 数据 才 会 用 来 更 新 对 象 ， 与 此 同时 ， 它 们 也 被 记录 到 持久 存 
储 中 。 这 个 过 程 是 一 个 原子 步骤 ， 其 间 将 暂时 不 让 其 他 事务 访问 相关 对 象 。 如 果 事 务 被 放弃 ， 系 
统 将 删除 它 的 临时 版 本 。 


13.3 帷 套 事务 


人 嵌 套 事务 扩展 了 前 面 介 绍 的 事务 模型 ， 它 允许 事务 由 其 他 事务 构成 。 这 样 ， 从 一 个 事务 内 可 
以 发 起 几 个 事务 ， 从 而 能 够 将 事务 看 成 按 需 组 成 的 模块 。 

代 套 事务 的 最 外 层 事务 称 为 顶层 事务 。 除 顶层 事务 之 外 的 其 他 事务 称 为 子 事务 。 例 如 在 图 
13-13 中 ， 事 务 T 是 一 个 顶层 事务 ， 它 启动 两 个 子 事务 Ti 和 Tz。 子 事务 T, 启 动 它 的 子 事务 Ti 和 Ti>; 
子 事务 T: 启 动 它 的 子 事务 Tz ，T2 又 启动 子 事务 Th 。 


7 了 : 顶层 事务 
人 =openSubTransaction | T= openSubTransaction 
T: Zo: commit 
‘openSubTransaction openSubTransaction ~ ‘openSubTransaction , ， | 
J Wd Ts: 和 pro.vcommit Tt: XK abort 
WM 清 3 “1 9penSwb Transactipn ， 
prov.commit prov.commit 7 prov.commit 
prov.commit ; 
图 13-13 嵌 套 事务 


就 事务 的 并 发 访问 和 故障 处 理 而 言 ， 子 事务 对 它 的 父 事务 是 原子 的 。 处 于 同一 个 层次 的 子 事 
务 (例如 T, 和 T,) 可 以 并 发 运行 ,但 它们 对 公共 对 象 的 访问 是 串 行 化 的 ， 例 如 通过 13.4 节 描述 的 锁 
机 制 。 每 一 个 子 事务 可 能 独立 于 父 事务 和 其 他 子 事务 出 现 故 障 。 当 某 个 子 事务 放弃 时 ， 其 父 事务 
有 了 时 可 能 选择 另 一 个 子 事务 来 完成 它 的 工作 。 例 如 ， 某 个 事务 需要 将 一 个 邮件 消息 发 送 给 一 个 列 
表 中 的 所 有 接收 者 ， 该 事务 可 以 由 一 系列 子 事务 组 成 ， 每 个 子 事务 负责 将 消息 发 送 给 其 中 一 个 接 
收 者 。 如 果 某 些 子 事务 执行 失败 ， 父 事务 可 记录 这 些 信 息 ， 然 后 提交 整个 事务 ， 结 果 将 提交 所 有 
成 功 的 子 事务 。 然 后 ， 可 以 启动 另 一 个 事务 来 重新 发 送 第 一 次 未 发 出 的 那些 消息 。 

为 了 以 示 区 别 ， 我 们 称 前 文 介 绍 的 事务 为 平面 事务 。 之 所 以 称 为 平面 的 ， 是 因为 平面 事务 的 
所 有 工作 都 在 openTransaction 和 commit/abort 之 间 的 同一 个 层次 里 完成 ， 它 不 可 能 提交 或 放弃 部 分 
事务 。 舱 套 事务 有 下 列 主 要 的 优势 

1) 在 同一 个 层次 的 子 事务 (及 其 后 代 ) 可 以 并 发 运行 ， 这 提高 了 事务 内 的 并 发 度 。 如 果 这 些 
子 事务 运行 在 不 同 的 服务 器 上 ， 那 么 它们 能 够 并 行 执行 。 例 如 ， 考 虑 银行 例子 中 的 branchTotal 操 
作 ， 可 以 通过 在 分 行 的 每 一 个 账户 上 调用 getBalance 来 实现 它 。 现 在 每 次 getBalance 调 用 可 以 作为 
一 个 子 事务 实现 ， 这 些 子 事务 可 并 发 执行 。 由 于 这 些 操作 应 用 于 不 同 的 账户 ， 所 以 子 事务 之 间 不 
存在 冲突 的 操作 。 

2) 子 事务 可 以 独立 提交 和 放弃 。 与 单个 事务 相 比 ， 若 干 艇 套 的 子 事务 可 能 更 强壮 。 前 面 的 发 
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送 邮 件 的 例子 可 以 表明 这 一 点 一 一 如 果 利 用 平面 事务 ， 一 个 事务 失败 会 导致 整个 事务 重启 。 事 实 
上 ， 父 事务 可 以 根据 子 事务 是 否 放弃 来 决定 不 同 的 动作 。 

储 套 事务 的 提交 规则 相当 细致 : 

。 事 务 在 它 的 子 事务 完成 以 后 ， 才 能 提交 或 放弃 。 

。 当 一 个 子 事务 执行 完毕 后 ， 它 可 以 独立 决定 是 暂时 提交 还 是 放弃 。 如 果 决 定 是 放弃 ， 那 么 这 
个 决定 是 最 终 的 。 

。 父 事务 放弃 上 时， 所 有 的 子 事务 都 被 放弃 。 例 如 ， 如 果 T, 放 弃 了 ， 那 么 子 事务 T,, 和 Ti 也 必须 
放弃 ， 即 使 它们 可 能 已 经 暂时 提交 了 。 

。 如 果 某 个 子 事务 放弃 了 ， 那 么 父 事务 可 以 决定 是 否 放弃 。 在 我 们 的 例子 中 ， 虽 然 T: 放 弃 了 ， 
但 T 决 定 提 交 。 

。 如 果 顶 层 事 务 提交 ， 那 么 所 有 暂时 提交 的 子 事务 将 最 终 提 交 (这 里 假设 它们 的 祖先 没有 一 个 
放弃 )。 在 我 们 的 例子 中 ， 事 务 T 的 提交 将 允许 事务 T,、T, 和 T,, 提 交 ， 但 T,, 和 Ty, 不 能 提交 ， 
因为 它们 的 父 事务 T, 放 弃 了 。 需 要 注意 的 是 ， 只 有 当 顶 层 事 务 提交 后 ， 子 事务 的 作用 才能 持 
久 化 。 

某 些 情况 下 ， 由 于 一 个 或 多 个 子 事务 放弃 ， 顶 层 车 务 最 终 选 择 放弃 。 例 如 ， 考 虑 下面 的 事务 

Transfer: 
从 B 转 账 $100 到 A 
a.deposit(100) 
b.withdraw(100) 
事务 Transfer 包 括 两 个 子 事务 : 一 个 执行 withdraw 操 作 ， 另 一 个 执行 deposit 操 作 。 如 果 两 个 子 
事务 都 成 功 提交 ， 那 么 Transfer 事 务 也 提交 。 假 设 遇 到 账户 透支 ，withdraw 子 事务 将 放弃 。 现 在 考 
虑 withdraw 子 事务 放弃 ， 而 deposit 事 务 提交 的 情况 。 回 想 一 下 , 子 事务 的 提交 将 视 父 事务 提交 而 定 ， 
我 们 假设 顶层 (Transfer) 事务 选择 放弃 ， 父 事务 的 放弃 将 导致 子 事务 放弃 ， 所 以 deposit 事 务 放弃 ， 
其 效果 被 消除 。 

CORBA 的 对 象 事务 服务 同时 支持 平面 事务 和 峰 套 事务 。 在 分 布 式 系统 中 ， 由 于 子 事务 可 以 在 
不 同 服务 器 上 并 发 执行 ， 所 以 典 套 事务 显得 尤其 重要 。 我 们 将 在 第 14 章 讨论 这 个 问题 。 人 嵌 套 事务 
的 这 种 形式 是 由 Moss 提 出 的 [Moss 1985]。 嵌 套 事务 有 很 多 变种 ， 这 些 变种 具有 不 同 的 串 行 特性 ， 
详情 可 参考 Weikumf1991]。 


13.4 锁 


事务 必须 通过 调度 使 它们 对 共享 数据 的 执行 效果 是 串 行 等 价 的 。 服 务 器 可 以 通过 串 行 化 对 象 
访问 来 达到 事务 的 串 行 等 价 。 图 13-7 的 例子 表明 如 何在 某 种 程序 的 并 发 的 情况 下 达到 串 行 等 价 一 一 
事务 T 和 事务 U 都 访问 账户 B， 但 事务 T 在 U 开 始 访问 前 就 完成 了 它 的 访问 。 

一 个 简单 的 串 行 化 机 制 是 使 用 互 斥 锁 。 在 这 种 锁 机 制 下 ， 服 务 器 试图 给 客户 事务 操作 所 访问 
的 对 象 加 锁 。 如 果 客 户 请 求 访问 的 一 个 对 象 已 被 其 他 客户 的 事务 锁 住 ， 那 么 服务 器 将 暂时 挂 起 这 
个 请 求 ， 直 到 对 象 被 解锁 。 

图 13-14 说 明了 互 斥 锁 的 使 用 。 它 给 出 的 事务 与 图 13-7 中 的 事务 相同 ， 但 多 出 一 列 用 于 为 每 个 
事务 列 出 加 锁 、 等 待 和 解锁 的 动作 。 这 个 例子 假设 在 事务 T 和 U 运 行 前 ， 账 户 A、B 和 C 均 未 加 锁 。 
当 事 务 T 准 备 访问 账户 B 时 ， 账 户 B 被 事务 T 锁 住 。 此 后 ， 当 事务 U 准 备 访问 B 时 ， 由 于 B 被 T 锁 住 ， 
所 以 U 必 须 等 待 。 事 务 T 提 交 时 ，B 被 解锁 ， 此 时 事务 U 继 续 执 行 。 在 B 上 使 用 锁 有 效 地 串 行 化 了 对 
B 的 访问 。 需 要 注意 的 是 ， 如 果 事 务 T 在 getBalance 和 setBalance 之 间 释 放 B 的 锁 ， 那 么 事务 U 对 B 的 
getBalance 操 作 就 能 穿插 在 T 的 操作 之 间 。 
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balance = b.getBalance() 
b.setBalance(bal*1.1 ) 
cawithdraw(bal/10) 
焊 作 .，.， 
openTransaction 

bal = b .getBa lancel() 

b .setBalance(bal*].] ) openTransaction 等 待 事务 T 在 B 上 的 锁 
a.withdraw(bal/10) bal = b .getBalance() 

closeTransaction 


锁 住 B 


b .setBalance(bal*1.] ) 
c.withdraw(bal/10) 锁 住 C 
closeTra nsaction 对 B,C 解锁 








图 13-14 事务 T 和 U 使 用 互 斥 锁 


串 行 等 价 性 要 求 一 个 事务 对 某 个 对 象 的 所 有 访问 相对 于 其 他 事务 进行 的 访问 而 言 是 串 性 化 的 。 
两 个 事务 的 所 有 的 冲突 操作 对 必须 以 相同 的 次 序 执 行 。 为 了 保证 这 一 点 ， 事 务 在 释放 任何 一 个 锁 之 
后 ， 都 不 允许 再 申请 新 的 锁 。 每 个 事务 的 第 一 个 阶段 是 一 个 “增长 ”阶段 ， 在 这 个 阶段 中 ， 事 务 不 
断 地 获取 新 的 锁 ， 在 第 二 个 阶段 中 ， 事 务 释放 它 的 锁 (一 个 “收缩 阶段 ”) 。 这 称 为 两 阶段 加 锁 。 

13.2.2 节 介绍 了 事务 的 放弃 可 能 引起 脏 数据 读 取 和 过 早 写 入 问题 ， 需 要 用 严格 执行 来 防止 这 些 
问题 。 在 事务 的 严格 执行 中 ， 事 务 对 某 个 对 象 的 读 写 必须 等 到 其 他 写 同一 对 象 的 事务 提交 或 放弃 
之 后 才能 进行 。 为 了 保证 这 一 点 ， 所 有 在 事务 执行 过 程 中 获取 的 锁 必 须 在 事务 提交 或 放弃 后 才能 
释放 。 这 称 为 严格 的 两 阶段 加 锁 。 锁 可 以 阻止 其 他 事务 读 / 写 对 象 。 在 事务 提交 时 ， 为 了 保证 可 恢 
复 性 ， 锁 必须 在 所 有 被 更 新 的 对 象 写 入 持久 存储 之 后 才能 释放 。 

服务 器 通常 包含 大 量 的 对 象 ， 而 一 个 事务 只 访问 其 中 少量 的 对 象 ， 不 太 可 能 与 其 他 并 发 事务 
发 生 冲 突 。 并 发 控制 使 用 的 粒度 是 一 个 重要 问题 ， 因 为 如 果 并 发 控制 (例如 ， 锁 ) 只 能 同时 应 用 
到 所 有 对 象 上 ， 那 么 服务 器 中 对 象 的 并 发 访问 范围 将 会 严重 受 限 。 在 我 们 的 银行 例子 中 ， 如 果 一 
次 将 分 行 中 的 所 有 客户 账户 都 锁 住 ， 那 么 在 任何 时 候 ， 只 有 一 个 柜员 能 够 进行 联机 事务 一 一 这 是 
不 可 接受 的 限制 。 

对 其 访问 必须 被 串 行 化 的 那 部 分 对 象 的 数量 应 尽 可 能 少 ， 即 尽量 限制 与 事务 的 每 个 操作 相关 
的 那 部 分 对 象 。 在 银行 例子 中 ， 分 行 包含 众多 账户 ， 每 个 账户 都 有 余额 。 每 次 银行 业务 操作 会 影 
响 一 个 或 多 个 账户 余额 deposit 操 作 和 withdraw 操 作 影 响 一 个 账户 余额 ， 而 branchTotal 影 响 所 有 
账户 余额 。 

下 面 介绍 的 并 发 控制 机 制 没 有 假定 任何 特定 的 粒度 。 我 们 讨论 可 应 用 于 对 象 的 并 发 控制 协议 ， 
其 中 对 象 的 操作 可 以 抽象 成 对 象 上 的 read 和 write 操作 。 为 了 保证 协议 能 够 正常 工作 ， 每 个 read 和 
write 操作 在 对 象 上 的 效果 必须 是 原子 性 的 。 

并 发 控制 协议 用 于 解决 不 同事 务 中 的 操作 访问 同一 个 对 象 时 的 冲突 。 本 章 使 用 操作 之 间 的 冲 
突 来 解释 协议 。 图 13-9 给 出 了 read 操 作 和 write 操作 的 冲突 规则 ， 其 中 不 同事 务 对 同一 个 对 象 的 read 
操作 是 不 冲突 的 。 因 此 ， 对 read 和 write 操作 都 使 用 简单 的 互 斥 锁 会 过 多 地 降低 并 发 度 。 

可 以 采用 这 样 一 种 锁 机 制 ， 它 能 够 支持 多 个 并 发 事务 同时 读 取 某 个 对 象 ， 或 者 允许 一 个 事务 
写 对 象 ， 但 它 不 允许 两 者 同时 存在 。 这 通常 称 为 “多 个 读者 /一 个 写 者 ”机 制 。 该 机 制 使 用 两 种 锁 : 
读 锁 和 写 锁 。 在 事务 进行 读 操作 之 前 ， 应 给 对 象 加 上 读 锁 。 在 事务 进行 写 操作 之 前 ， 给 对 象 加 上 
写 锁 。 如 果 不 能 设置 相应 的 锁 ， 那 么 事务 (和 客户 ) 必须 等 待 ， 直 到 可 以 设置 相应 的 锁 为 止 一 一 
从 不 拒绝 客户 的 请 求 。 
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由 于 不 同事 务 的 读 操作 不 冲突 ， 因 此 可 以 在 已 有 读 锁 的 对 象 上 设置 读 锁 。 所 有 访问 同一 对 象 
的 事务 共享 它 的 读 锁 一 正 是 这 个 原因 ， 读 锁 有 时 也 被 称 为 共享 锁 。 

操作 冲突 规则 包括 ， 

1) 如 果 事务 T 已 经 对 某 个 对 象 进行 了 读 操作 ， 那 么 并 发 事务 U 在 事务 T 提 交 或 放弃 前 不 能 写 访 
对 象 。 

2) 如 果 事 务 T 已 经 对 某 个 对 象 进行 了 写 操作 ， 那 么 并 发 事务 U 在 事务 T 提 交 或 放弃 前 不 能 写 或 
读 该 对 象 。 

为 了 保证 规则 1， 如 果 一 个 对 象 上 有 另 一 个 事务 的 读 锁 ， 那 么 给 该 对 象 加 写 锁 的 请 求 将 被 延 
迟 。 为 了 保证 规则 2， 如 果 一 个 对 象 上 有 另 一 个 事务 的 写 锁 ， 那 么 对 该 对 象 加 读 锁 或 写 锁 的 请 求 
将 被 延迟 。 

图 13-15 给 出 了 任 一 对 象 上 读 锁 和 写 锁 的 相 容 性 。 表 中 的 第 一 列 是 对 象 上 已 设置 的 锁 类 型 ， 第 
一 行 是 请 求 的 锁 类 型 。 每 个 单元 中 的 项 分 别 指 rt 
明 ， 当 对 象 在 另 一 个 事务 中 被 左边 类 型 的 锁 锁 对 某 -对象 
住 时 ， 一 个 事务 请 求 读 锁 或 写 锁 的 结果 。 “已 设 置 的 锁 中 ee 

不 一 致 检索 和 更 新 丢失 是 在 没有 并 发 控制 a 
机 制 (如 锁 ) 的 保护 下 ， 由 于 一 个 事务 的 读 操 write 
作 和 另 一 个 事务 的 写 操作 之 间 的 冲突 引起 的 。 
通过 在 更 新 事务 之 前 或 之 后 运行 检索 事务 ， 可 人 
以 避免 不 一 致 检索 问题 。 如 果 先 执行 检索 事务 ， 那 么 这 个 事务 上 的 读 锁 将 推迟 更 新 事务 的 执行 ， 
如 果 后 执行 检索 事务 ， 那 么 检索 事务 对 读 锁 的 请 求 将 推迟 自身 的 执行 ， 直 到 更 新 事务 完成 为 止 。 

更 新 丢失 在 两 个 事务 同时 读 取 了 对 象 的 值 ， 然 后 利用 读 取 的 数据 来 计算 新 值 的 时 候 出 现 。 通 
过 让 后 面 的 事务 推迟 它们 的 读 操作 直到 前 面 的 事务 完成 为 止 ， 可 以 避免 更 新 丢失 问题 。 它 的 实现 
方式 是 :每 个 事务 在 读 对 象 时 都 设置 一 个 读 锁 ， 然 后 在 写 该 对 象 时 将 读 锁 提升 为 写 锁 。 这 样 ， 当 
后 继 事务 要 求 一 个 读 锁 时 ， 该 请 求 将 被 延迟 直到 当前 事务 完成 工作 为 止 。 

如 果 一 个 事务 的 读 锁 被 多 个 事务 共享 ， 那 么 该 事务 不 能 将 读 锁 提 升 为 写 锁 ， 因 为 它 可 能 会 与 
其 他 事务 拥有 的 读 锁 相 冲突 。 因 此 ， 该 事务 必须 请 求 一 个 写 锁 并 等 待 其 他 读 锁 被 释放 。 

锁 的 提升 是 指 将 某 个 锁 转 化 为 功能 更 强 的 锁 ， 即 互 斥 性 更 强 的 锁 。 锁 的 相 容 性 列表 给 出 了 锁 
的 互 斥 性 强 弱 。 读 锁 允 许 其 他 读 锁 ， 但 是 写 锁 不 允许 其 他 读 锁 。 两 者 都 不 允许 其 他 写 锁 。 因 此 写 
锁 比 读 锁 互 斥 性 更 强 。 锁 可 以 被 提升 ， 因 为 结果 是 一 个 互 斥 性 更 强 的 锁 。 但 是 在 事务 提交 前 降低 
一 个 事务 的 锁 却 是 不 安全 的 ， 因 为 结果 是 一 个 更 宽容 的 锁 ， 它 可 能 允许 执行 与 串 行 等 价 不 一 致 的 
其 他 事务 。 

图 13-16 总 结 了 在 严格 的 两 阶段 加 锁 实现 中 锁 的 使 用 规则 。 为 了 保证 遵守 这 些 规则 ， 客 户 不 能 
直接 调用 加 锁 和 解锁 操作 。 在 read 和 write 操作 的 请 求 将 被 应 用 到 可 恢复 对 象 上 时 ， 执 行 加 锁 ， 而 解 
锁 则 由 事务 协调 者 的 commit 或 abort 操 作 完成 。 





1. 当 某 个 事务 中 有 一 个 操作 访问 某 个 对 象 时 : 
1) 如 果 该 对 象 未 被 加 锁 ， 那 么 它 被 加 上 锁 并 且 操 作 继 续 执行 。 
2) 如 果 该 对 象 已 被 其 他 事务 设置 了 一 个 冲突 的 锁 ， 那 么 该 事务 必须 等 待 ， 直 到 对 象 被 解锁 为 止 。 
3) 如 果 该 对 象 被 其 他 事务 设置 了 一 个 不 冲突 的 锁 ， 那 么 这 个 锁 被 共享 并 且 操 作 继 续 执行 。 


4) 如 果 该 对 象 已 被 同一 事务 锁 住 那么 在 必要 时 提升 该 锁 ， 并 且 操作 继续 执行 ( 当 一 个 冲突 的 锁 阻 止 了 
锁 的 提升 ， 那 么 使 用 规则 2) 。 
2. 当 事 务 被 提交 或 被 放弃 时 ， 服 务 器 将 释放 该 事务 在 对 象 上 施加 的 所 有 锁 。 





图 13-16 在 严格 的 两 阶段 加 锁 中 使 用 锁 
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例如 ，CORBA 的 并 发 控制 服务 [OMG 1997a] 既 可 以 用 于 事务 的 并 发 控制 ， 也 可 以 在 不 使 用 事 
务 时 直接 用 来 保护 对 象 。 该 服务 提供 了 一 种 将 资源 〈 例 如 可 恢复 对 象 ) 和 一 个 锁 的 集合 〈 称 为 锁 
集 ) 相关 联 的 方式 。 锁 集 支持 获取 和 释放 锁 。 锁 集 的 lock 方法 用 来 获取 锁 ， 如 果 这 个 锁 暂 时 不 能 获 
取 时 ， 调 用 者 将 被 阻塞 。 锁 集合 提供 的 其 他 方法 还 可 用 来 提升 和 释放 锁 。 事 务 性 的 锁 集 所 支持 的 
方法 与 锁 集 一 致 ， 但 要 求 将 事务 标识 符 作 为 参数 。 我 们 在 前 面 提 到 ，CORBA 的 事务 服务 给 所 有 在 
同一 个 事务 中 的 客户 请 求 都 标 上 事务 标识 符 。 这 就 允许 可 恢复 对 象 在 被 访问 之 前 可 以 加 上 合适 的 
锁 。 当 事务 提交 或 放弃 时 ， 事 务 协调 者 负责 释放 所 有 的 锁 。 

由 于 锁 一 旦 获取 ， 就 一 直 要 保持 到 事务 提交 或 放弃 ， 所 以 图 13-16 中 的 规则 保证 了 事务 执行 的 
严格 性 。 然 而 ， 没 必要 为 确保 严格 性 而 保持 读 锁 ， 读 锁 只 需 保 持 到 提交 请 求 或 放弃 请 求 为 止 。 

锁 的 实现 ” 锁 的 授予 通常 由 服务 器 上 的 一 个 对 象 实现 ， 我 们 称 该 对 象 为 锁 管 理 器 。 锁 管理 器 
把 所 拥有 的 锁 存 放 在 诸如 散 列 表 之 类 的 数据 结构 中 。 每 个 锁 都 是 Lock 类 的 一 个 实例 ， 并 与 某 个 对 
象 相关 联 。 图 13-17 给 出 了 Lock 类 。Lock 类 的 每 个 实例 在 它 的 实例 变量 中 维护 以 下 信息 ; 

“被 锁 住 对 象 的 标识 各 

“当前 拥有 该 锁 的 事务 的 标识 符 (共享 锁 可 以 有 若干 拥有 者 )。 

。 锁 的 类 型 。 

类 Lock 的 方法 都 是 同步 方法 ， 这 样 试图 获得 或 释放 锁 的 线程 将 不 会 相互 干扰 。 另 外 ， 当 试图 
获取 正 被 使 用 的 锁 时 ， 线 程 将 调用 wait 方 法 等 待 该 锁 释放 。 


public class Lock{ 
private Object object: 1/ the object being protected by the lock 








private Vector holders; 1! the TIDs of current holders 
private LockType lockType; /he current type 
public synchronized void acquire(TransID trans, LockType aLockType }{ 
while(/*another rransaction holds the lock in conflicing mode*/) { 
ry{ 
wait{); 
Jcatch { InterruptedException e){/*...*/ } 
2} 
if{holders.is Empty()) { /!/ no TIDs hold lock 
holders.addElement(trans); 
lockType = aLockType; 
Jelse iftl/*another transaction holds the lock, share it*/ ) }{ 
ifi/*this transaction not a holder*/) holders.addElement(trans); 


else if (/*this transaction is a holder but needs a more exclusive lock*/) 





lockType.promotel ); 
2 
2} 
public synchronized void release{ TransID trans }{ 


holders.removeElement{trans): 1 remove this holder 


ff set locktype to none 
notifyAll{)}. 
2 





图 13-17 Lock 类 


acquire 方 法 实现 了 图 13-15 和 图 13-16 给 出 的 规则 。 它 的 两 个 参数 分 别 是 事务 标识 符 和 该 事务 请 
求 的 锁 类 型 。 它 首先 测试 能 否 满足 该 请 求 。 如 果 另 一 个 事务 以 与 之 冲突 的 模式 拥有 锁 ， 那 么 它 调 
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用 wait， 将 调用 者 线程 挂 起 直到 接收 到 相应 的 notify 为 止 。 注 意 ，wait 调 用 被 放 在 一 个 while 循 环 中 ， 
这 是 因为 多 个 等 待 线 程 被 通知 但 并 非 所 有 的 线程 都 可 以 继续 执行 。 当 条 件 最 终 被 满足 后 ， 该 方法 
的 剩余 部 分 将 设置 适当 的 锁 : 

。 如 果 没 有 其 他 事务 拥有 该 锁 ， 将 当前 事务 设 为 锁 的 拥有 者 并 设置 相应 的 锁 类 型 。 

* 否则 ， 如 果 有 其 他 的 事务 拥有 该 锁 ， 那 么 将 当前 事务 设 为 该 锁 的 共享 拥有 者 (除非 它 已 是 一 

个 拥有 者 ) 。 

。 否则 ， 如 果 该 事务 本 身 就 是 锁 的 拥有 者 ， 而 它 正 在 请 求 更 互 斥 的 锁 ， 那 么 提升 当前 锁 。 

release 方 法 的 参数 是 需要 释放 锁 的 事务 的 标识 符 。 该 方法 从 锁 的 拥有 者 中 删除 该 事务 标识 符 ， 
将 锁 的 类型 设置 为 none 并 且 调 用 notifyAlH。 倘 车 有 多 个 事务 正在 等 待 获得 读 锁 ， 那 么 该 方法 通知 所 
有 等 待 的 线程 ， 使 得 它们 能 够 继续 执行 。 

图 13-18 给 出 了 LockManager 类 。 所 有 的 事务 要 求 加 锁 和 解锁 的 请 求 都 被 送 往 类 LockManager 
的 某 个 实例 。 

。setLock 方 法 的 参数 指定 了 给 定 事务 要 锁 住 的 对 象 和 锁 类 型 。 它 在 散 列表 中 查找 该 对 象 相应 

的 锁 ， 如 果 设 有 则 创建 一 个 新 锁 ， 然 后 调用 该 锁 的 acquire 方 法 。 

*unLock 方 法 的 参数 指定 了 释放 锁 的 事务 ， 它 在 散 列表 中 找 出 该 事务 拥有 的 所 有 锁 ， 对 每 个 锁 

分 别 调用 release 方 法 。 


public class LockManager { 
private Hashtable theLocks; 


public void setLock({Object object, TranslD trans, LockType lockType}{ 
Lock foundLock: 
synchronized{this}H 

















/find the lock associated with object 

1/ if there isn't one, create it and add to the hashtable 
} 

foundLock.acquire(trans, lockType); 

2} 


// synchronize this one because we want to remove all entries 





public synchronized void unLock{TranslD trans){ 
Enumeration e = theLocks.elements(); 
while(e.hasMoreElements{ ){ 

Lock aLock = (Lock)({e.nextElement()): 


ifti/* trans is a holder of this lock*/ } aLock.release(trans): 








图 13-18 LockManager 类 


一 些 策略 问题 :我们 注意 到 ， 当 若干 线程 等 待 同一 个 被 锁 住 的 项 时 ，wait 方 法 的 语义 将 保证 每 
个 事务 都 会 被 处 理 。 在 上 面 的 程序 中 ， 冲 突 规则 允许 锁 的 拥有 者 可 以 是 多 个 读者 或 一 个 写 者 。 因 
此 除非 拥有 者 拥有 写 锁 ， 否 则 请 求 读 锁 总 能 成 功 。 请 读者 考虑 下 面 的 问题 : 

“如 果 不 断 面临 读 锁 请 求 ， 那 么 写 事务 的 结果 会 如 何 ? 有 没有 其 他 的 实现 方法 ? 

当 某 个 拥有 者 拥有 一 个 写 锁 时 ， 那 么 可 能 有 多 个 读者 和 写 者 在 等 待 。 请 读者 考虑 notifyAll 的 执 
行 效果 以 及 其 他 实现 方法 。 如 果 读 锁 的 拥有 者 试图 提升 被 共享 的 锁 ， 那 么 它 将 被 阻塞 。 这 个 问题 
有 解决 方法 吗 ? 
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尾 套 事务 的 加 锁 规则 ” 骨 套 事务 的 锁 机 制 用 于 串 行 化 访问 对 象 ， 以 便 保 证 : 

1) 每 个 做 套 事务 集 是 一 个 实体 ， 它 不 能 观察 到 其 他 幅 套 事务 集 的 部 分 效果 。 

2) 一 个 做 套 事务 集中 的 每 个 事务 不 能 观察 到 同一 事务 集中 其 他 事务 的 部 分 效果 。 

实施 第 一 个 规则 要 求 子 事务 成 功 执行 后 ， 由 它 的 父 事务 继承 子 事务 所 获得 的 所 有 锁 ， 随 后 ， 
这 些 被 继承 的 锁 继续 由 更 高 层 的 事务 继承 。 注 意 ， 这 里 的 继承 是 从 底层 向 高 层 传递 。 因 此 ， 顶 层 
事务 最 终 将 继承 账 套 事务 中 任何 层次 的 成 功 子 事务 所 获得 的 所 有 锁 。 这 种 方式 确保 了 这 些 锁 能 一 
直 保 持 到 顶层 事务 提交 或 放弃 ， 从 而 防止 不 同 嵌 套 事务 集 的 成 员 观 察 到 其 他 事务 集 的 部 分 效果 。 

下 列 机 制 用 于 实施 第 二 个 规则 ， 

* 父 事务 不 允许 和 子 事务 并 发 运行 。 如 果 父 事务 拥有 某 个 对 象 上 的 一 个 锁 ， 那 么 它 将 在 子 事务 

执行 时 保留 该 锁 。 这 意味 着 ， 子 事务 在 执行 过 程 中 需要 临时 从 父 事务 处 获取 该 锁 。 

“ 同 层 次 的 子 事务 可 以 并 发 执行 ， 这 样 ， 在 它们 访问 同一 个 对 象 时 ， 锁 机 制 必 须 串 行 化 它们 的 

访问 。 

下 列 规则 描述 了 锁 的 获取 和 释放 : 

"如 果子 事务 获取 了 某 个 对 象 的 读 锁 ， 那 么 其 他 活动 事务 不 能 获取 该 对 象 的 写 锁 ， 只 有 该 子 事 

务 的 父 事务 们 可 以 持 有 该 写 锁 。 

“ 如果 了 事务 获取 了 某 个 对 象 的 写 锁 ， 那 么 其 他 活动 事务 不 能 获取 该 对 象 的 写 锁 或 读 锁 ， 只 有 

子 事务 的 父 事务 们 可 以 持 有 该 写 锁 或 读 锁 。 

* 当 子 事务 提交 时 ， 它 的 所 有 锁 由 它 的 父 事务 继承 ， 即 允许 父 事 务 保留 与 子 事务 相同 模式 


的 锁 。 
* 在 子 事务 放弃 时 ， 它 的 所 有 锁 都 被 丢弃 。 如 果 父 事务 已 经 保留 了 这 些 锁 ， 那 么 它 可 以 继续 保 
持 这 些 锁 。 


注意 ， 当 同 层次 的 子 事务 访问 同一 个 对 象 时 ， 子 事务 将 轮流 从 父 事务 处 获取 锁 ， 这 保证 了 它 
们 对 公共 对 象 访问 的 串 行 性 。 

例如 ， 假 设 图 13-13 中 的 子 事务 T,、T, 和 TT 访问 同一 个 对 象 ， 而 顶层 事务 T 不 访问 该 对 象 。 如 
果子 事务 Ti 最 先 访问 该 对 象 并 成 功 获取 了 一 个 锁 ， 那 么 在 Ti 执行 时 T 将 该 锁 传 给 T， 并 在 Ti 结束 
时 收回 该 锁 。 当 Tl 运行 结束 时 ， 顶 层 事 务 T 将 继承 该 锁 ， 并 保留 到 整个 幅 套 事务 结束 。 子 事务 T, 在 
执行 时 可 以 从 T 获 取 该 锁 。 


13.4.1 死 锁 


使 用 锁 有 可 能 引起 死 锁 。 考 虑 图 13-19 中 锁 的 使 用 。 因 为 deposit 和 withdraw 方 法 符合 原子 性 ， 
所 以 我 们 在 图 上 显示 它们 需要 获得 写 锁 一 一 虽然 实际 上 这 两 个 方法 是 先 读 取 账户 余额 ， 然 后 写 人 
新 余额 。 图 13-19 表 示 两 个 事务 分 别 获取 了 一 个 账户 的 写 锁 ， 但 在 访问 另 一 方 锁定 的 账户 时 被 阻塞 。 

































这 就 是 死 锁 的 情景 一 一 两 个 事务 都 在 等 待 并 且 只 有 对 方 释放 锁 后 才能 继续 执行 。 
车 务 T 事务 U 
操作 锁 操作 锁 

a.deposit{ 100 }: 给 A 加 写 锁 
bdepositf200) 给 B 加 写 锁 

b.withdraw{ 100 ) 等 待 事务 U 

,., 在 B 上 + 的 锁 a .withdraw{200); 等 待 事务 T 
... 在 A 上 的 锁 





| 








图 13-19 写 销 造 成 的 死 锁 
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在 客户 涉及 交互 程序 的 情况 下 ， 死 锁 是 一 种 常见 的 情形 。 由 于 交互 程序 中 的 事务 通常 运行 时 
间 较 长 ， 造 成 很 多 对 象 被 锁 住 ， 从 而 阻止 了 其 他 客户 使 用 这 些 对 象 。 

我 们 注意 到 ， 在 结构 化 对 象 的 子 项 上 加 锁 有 助 于 避免 串 突 和 可 能 的 死 锁 情 形 。 例 如 ， 日 记 中 
的 某 一 天 可 以 被 组 织 成 很 多 时 间 段 ， 每 个 时 间 段 可 以 为 了 更 新 而 独立 加 锁 。 如 果 应 用 需要 给 不 同 
操作 加 不 同 粒 度 的 锁 ， 层 次 化 的 加 锁 机 制 是 非常 有 用 的 ， 参 见 13.4.2 节 。 

死 锁 的 定义 ” 死 锁 是 一 种 状态 ， 在 该 状态 下 一 组 事务 中 的 每 一 个 事务 都 在 等 待 其 他 事务 释放 
某 个 锁 。 等 待 图 可 用 来 表示 当前 事务 之 间 的 等 待 关系 。 在 等 待 图 中 ， 节 点 表示 事务 ， 边 表示 事务 
之 间 的 等 待 关系 。 例 如 ， 如 果 事 务 T 在 等 待 事务 U 释 放 某 个 锁 ， 那 么 在 等 待 图 中 有 一 条 从 节点 T 指 向 
节点 U 的 边 。 图 13-20 中 的 等 待 图 表示 了 图 13-19 中 的 死 锁 的 情形 。 回 想 一 下 ， 图 中 的 死 锁 是 由 于 事 
务 T 和 U 都 试图 获取 对 方 拥有 的 锁 造 成 的 ， 因 此 事务 T 等 待 事务 U， 同 时 事务 U 等 待 事务 T。 事 务 之 间 
的 依赖 关系 是 间接 的 一 一 通过 对 象 上 的 依赖 。 图 13-20 的 右 图 表示 事务 T 和 U 分 别 拥有 和 等 待 的 对 象 。 
由 于 每 个 事务 只 能 等 待 一 个 对 象 ， 因 此 可 以 把 对 象 从 等 待 图 中 删 去 ， 简 化 成 图 13-20 所 示 的 左 图 。 








图 13-20 图 13-19 的 等 待 图 


假设 像 图 13-21 一 样 ， 等 待 图 中 包含 环 路 T 一 U 一 … 一 V 一 T， 那 么 环 路 中 的 每 一 个 事务 都 在 等 
待 下 一 个 事务 。 所 有 的 事务 都 被 阻塞 以 等 待 锁 。 
由 于 没有 一 个 锁 会 释放 ， 因 此 这 些 事务 均 处 于 
死 锁 状态 。 如 果 环 路 中 的 某 一 个 事务 被 放弃 ， 
那么 它 的 锁 就 被 释放 ， 从 而 打破 环 路 。 例 如 ， 
如 果 图 13-21 中 的 事务 T 被 放弃 ， 那 么 它 将 释放 
事务 V 正 在 等 待 的 锁 ， 即 事务 V 将 不 再 等 待 T。 

如 图 13-22 的 右 图 所 示 ， 事 务 T、U 和 V 共 图 13-21 等 待 图 中 的 环 路 

享 对 象 C 上 的 读 锁 ,事务 WwW 拥 有 对 象 B 上 的 写 锁 ， 
而 事务 V 正 在 等 待 获取 对 象 B 的 锁 。 接 着 ， 事 务 T 和 W 请 求 对 象 C 上 的 写 锁 ， 那 么 会 进入 死 锁 状态 : 
事务 T 等 待 U 和 V，V 等 待 W， 而 W 又 在 等 待 TY，U 和 V， 如 图 13-22 的 左 图 所 示 。 这 表明 ， 尽 管 每 个 
事务 一 次 只 能 等 待 一 个 对 象 ， 但 是 它 却 可 能 处 于 多 个 等 待 环 路 中 。 例 如 ， 事 务 V 在 环 路 VW 一 T 
一 V 和 V 一 W 一 V 中 。 








图 13-22 另 一 个 等 待 图 


在 这 个 例子 中 ， 假 设 事务 V 被 放弃 。 这 将 释放 对 象 C 上 的 V 所 加 的 锁 ，V 所 在 的 两 个 环 路 均 被 
打破 。 


预防 死 锁 ” 死 锁 的 一 个 解决 方案 是 预防 发 生死 锁 。 一 个 简单 但 不 是 很 好 的 克服 死 锁 的 方案 是 


un 
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让 每 个 事务 在 开始 运行 时 就 锁 住 它 要 访问 的 所 有 对 象 。 为 了 避免 在 这 一 步 出 现 死 锁 ， 这 个 过 程 必 
须 是 原子 性 的 。 该 方案 防止 了 死 锁 ， 但 是 却 带 来 了 不 必要 的 资源 访问 限制 。 而 且 ， 有 时 在 事务 开 
始 时 无 法 预计 事务 将 访问 哪些 对 象 。 在 交互 应 用 中 这 种 情形 更 为 常见 ， 因 为 用 户 必 须 事先 说 明 准 
备 使 用 哪些 对 象 ， 这 在 浏览 型 应 用 (允许 用 户 查找 他 们 事先 不 知道 的 对 象 ) 中 是 不 可 想象 的 。 死 
锁 还 可 以 通过 以 预定 次 序 加 锁 来 预防 ， 但 是 这 会 造成 过 早 加 锁 和 减少 并 发 度 。 

更 新 锁 “CORBA 的 并 发 控制 服务 介绍 了 第 三 种 类 型 的 锁 一 一 更 新 锁 , 使 用 它 是 为 了 避免 死 锁 。 
造成 死 锁 的 原因 通常 是 ;两 个 冲突 的 事务 首先 获得 读 锁 ， 接 着 试图 提升 它们 为 写 锁 。 一 个 在 数据 
项 上 加 更 新 锁 的 事务 可 以 读 该 数据 项 ， 但 该 锁 与 其 他 事务 加 在 同一 数据 项 上 的 更 新 相 冲 突 。 这 种 
类 型 的 锁 不 能 由 读 操作 隐 式 地 添加 ， 而 必须 由 客户 添加 。 

死 锁 检测 ”通过 寻找 等 待 图 中 的 环 路 可 以 检测 死 锁 。 一 旦 检测 出 死 锁 ， 必 须 选 择 放弃 一 个 事 
务 ， 从 而 打破 环 路 。 

负责 死 锁 检测 的 软件 通常 是 锁 管理 器 的 一 部 分 。 它 必须 维护 一 个 等 待 图 ， 以 便 不 时 检测 死 锁 。 
锁 管理 器 的 setLock 和 unLock 操 作用 于 增加 或 删除 等 待 图 中 的 边 。 死 锁 检 测 软 件 在 图 13-22 左 图 表示 
的 时 刻 有 下 面 信息 : 

事务 等 待 
U,V 


W 
T, U,V 





双 < 


当 锁 管理 器 因为 事务 T 请 求 事务 U 已 锁 住 对 象 上 的 锁 而 阻塞 请 求 时 ， 在 等 待 图 中 增加 边 T 一 U。 
注意 ， 如 果 锁 被 共享 ， 那 么 可 能 增加 多 条 边 。 一 旦 事务 U 释 放 了 T 等 待 的 锁 并 允许 事务 T 继 续 执行 
时 ， 将 边 T 一 U 从 等 待 图 中 删 去 。 练 习 13.14 包 含 了 死 锁 检 测 实 现 的 详细 讨论 。 如 果 一 个 事务 共享 一 
个 锁 ， 那 么 该 锁 不 被 释放 ， 但 通 向 某 个 事务 的 边 被 删除 了 。 

每 次 有 新 边 加 入 等 待 图 时 ， 就 检测 一 下 是 否 存在 环 路 。 为 了 避免 不 必要 的 开销 ， 可 以 降低 检 
测 频率 。 一 旦 检测 出 死 锁 ， 必 须 选 择 出 环 路 中 的 一 个 事务 并 将 其 放弃 。 此 时 ， 等 待 图 中 与 该 事务 
有 关 的 节点 和 边 也 被 删除 。 这 发 生 在 被 放弃 的 事务 删除 其 锁 的 时 候 。 

选择 一 个 要 放弃 的 事务 不 是 个 简单 的 问题 。 要 考虑 的 因素 有 事务 的 运行 时 间 以 及 它 所 处 的 环 
路 的 数量 。 

超时 锁 超 时 是 解除 死 锁 最 常用 的 方法 。 每 个 锁 都 有 一 个 时 间 期 限 。 一 旦 超过 这 个 期 限 ， 锁 
将 成 为 可 剥夺 的 。 如 果 没 有 其 他 事务 竞争 被 锁 住 的 对 象 ， 那 么 具有 可 剥夺 锁 的 对 象 会 被 继续 锁 住 。 
但 是 ， 一 旦 有 一 个 事务 正在 等 待 由 可 剥夺 锁 保 护 的 对 象 时 ， 这 个 锁 将 被 等 待 事务 剥夺 ( 即 对 象 被 
解锁 ) ， 等 待 事务 将 继续 执行 。 被 剥夺 锁 的 事务 通常 被 放弃 。 

使 用 超时 作为 死 锁 的 补救 方法 会 产生 很 多 问题 : 最 坏 的 情况 是 系统 中 本 没有 死 锁 ， 但 是 某 些 
事务 由 于 它们 的 锁 变 成 可 和 剥夺 的 ， 正 好 其 他 事务 在 等 待 它 们 的 锁 ， 因 此 这 些 事务 被 放弃 。 在 一 个 
负载 很 大 的 系统 中 ， 超 时 事务 的 数量 将 增加 ， 长 时 间 运 行 的 事务 经 常 被 放弃 。 另 外 ， 很 难 确定 适 
当 的 超时 时 间 长 度 。 相 比 之 下 ， 如 果 使 用 死 锁 检测 ， 事 务 被 放弃 是 因为 已 经 出 现 死 锁 并 且 死 锁 检 
测 能 决定 放弃 哪 一 个 事务 。 

利用 锁 超时 ， 我 们 可 以 解除 图 13-19 中 的 死 锁 ， 如 图 13-23 所 示 。 事 务 T 在 对 象 A 上 的 锁 在 锁 超 
时 后 变 为 可 和 剥夺 的 。 事 务 U 正 在 等 待 获取 A 上 的 写 锁 ， 因 此 事务 T 被 放弃 并 释放 A 上 的 锁 ， 从 而 允许 
事务 U 继 续 执行 并 完成 该 事务 。 

当 事 务 访问 的 对 象 分 布 在 不 同 的 服务 器 上 时 ， 可 能 会 出 现 分 布 式 死 锁 。 在 分 布 式 死 锁 中 ， 等 
待 图 可 能 涉及 多 个 服务 器 上 的 对 象 。 关 于 分 布 式 死 锁 将 在 14.5 节 讨论 。 
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事务 U 
操作 锁 
a .deposit{ 100); 给 A 加 写 锁 
b.deposit{200)} 给 B 加 与 锁 
b .withdraw( 100) 等 待 事务 U 在 B 上 的 锁 a.withdraw({ 200): 等 待 事务 T 企 A 上 的 锁 
(超时 ) 多 
T 在 A 上 的 锁 
变 成 可 和 剥 舍 的 ， 
释放 A 上 的 锁 ， 放 弃 T a.withdraw( 200); 给 A 加 写 锁 
释放 A，B 上 的 锁 








图 13-23 图 13-19 中 死 锁 的 解除 


13.4.2 在 加 锁 机 制 中 增加 并 发 度 


即使 加 锁 规 则 建立 在 读 操作 和 写 操作 之 间 的 冲突 上 ， 并 且 所 应 用 的 锁 的 粒度 也 尽 可 能 小 ， 但 
仍然 有 增加 并 发 度 的 空间 。 我 们 将 讨论 两 种 已 被 使 用 的 方法 。 在 第 一 种 方法 ( 双 版 本 加 锁 ) 中 ， 
互 斥 锁 的 设置 推迟 到 事务 提交 时 才 进 行 。 在 第 二 种 方法 (层次 锁 ) 中 ， 使 用 混合 粒度 的 锁 。 

双 版 本 加 锁 ”这 是 一 种 乐观 策略 ， 它 允许 一 个 事务 针对 对 象 的 临时 版 本 进行 写 操作 ， 而 其 他 
的 事务 读 取 同一 对 象 提交 后 的 版 本 。 读 操作 只 在 其 他 事务 正在 提交 同一 个 对 象 时 才 等 待 。 这 种 机 
制 比 读 一 写 锁具 有 更 高 的 并 发 度 ， 但 是 写 事务 在 试图 提交 时 要 冒 等 待 甚至 被 拒绝 的 风险 。 一 个 事务 
在 其 他 未 完成 事务 正在 读 取 对 象 时 ， 不 能 立即 提交 它 对 同一 对 象 的 写 操作 。 在 这 种 情况 下 ， 请 求 
提交 的 事务 必须 等 待 读 事务 完成 ， 在 事务 等 待 提交 的 时 候 可 能 发 生死 锁 。 因 此 ， 在 事务 等 待 提交 
时 ， 为 了 解除 死 锁 ， 可 能 需要 放弃 这 些 事务 。 

这 种 策略 用 在 严格 的 两 阶段 加 锁 上 时 ， 使 用 3 种 锁 ， 读 锁 、 写 锁 和 提交 锁 。 在 进行 事务 的 读 操 
作 之 前 ， 必 须 在 对 象 上 设置 读 锁 一 一 除非 对 象 上 有 一 个 提交 锁 ， 和 否则 读 锁 总 能 成 功 设置 ， 当 对 象 
上 有 提交 锁 时 ， 事 务必 须 等 待 。 在 进行 事务 的 写 操作 之 前 ， 必 须 在 对 象 上 设置 写 锁 一 除非 对 象 
上 有 一 个 提交 锁 或 写 锁 ， 否 则 写 锁 总 能 成 功 设置 ， 当 对 象 上 有 提交 锁 或 读 锁 时 ， 事 务必 须 等 待 。 

当 事 务 协调 者 收 到 提交 事务 的 请 求 后 ， 它 试图 将 事务 的 所 有 写 锁 转换 为 提交 锁 。 如 果 其 中 某 
些 对 象 上 还 有 读 锁 ， 那 么 要 提交 的 事务 必须 等 待 设置 这 些 锁 的 事务 完成 并 释放 读 锁 。 读 锁 、 写 锁 
和 提交 锁 之 间 的 相 容 性 关系 如 图 13-24 所 示 。 














在 性 能 方面 ， 双 版 本 加 锁 和 普通 的 读 一 写 锁 对 某 个 对 象 | 
机 制 有 两 个 主要 区 别 。-- 方 面 ， 在 双 版 本 加 锁 机 已 设置 的 俩 “none OK OK 
制 中 ， 读 操作 只 在 其 他 事务 提交 时 (而 不 是 事务 read OK 等 竺 
的 整个 执行 过 程 中 ) 才 会 延迟 一 一 在 大 多 数 情况 write 等 待 一 
下 ， 提 交 协 议 只 占 整个 事务 的 执行 时 间 中 很 少 的 commit 等 待 “一 





一 部 分 时 间 。 另 一 方面 ， 某 个 事务 的 读 操作 可 能 图 13-24 锁 的 相 容 性 〈 读 锁 、 写 锁 和 提交 锁 ) 
会 推迟 其 他 事务 的 提交 。 

层次 锁 ” 对 于 某 些 应 用 ， 适 合 一 个 操作 的 锁 粒 度 不 一 定 适合 另 一 个 操作 。 在 我 们 的 银行 例子 
中 ,大 多 数 操作 要 求 在 账户 粒度 上 加 锁 。 但 是 ，branchTotal 操 作 有 所 不 同 ， 它 读 取 所 有 账户 的 余 
额 值 ， 因 此 应 该 在 所 有 账户 上 加 上 读 锁 。 为 了 减少 加 锁 开 销 ， 应 当 允 许 有 混合 粒度 的 锁 。 

Gray[1978] 提 出 使 用 具有 不 同 粒度 的 层次 锁 。 在 每 一 层 ， 设 置 父 锁 与 设置 等 价 的 子 非 锁具 有 相 
同 的 效果 。 这 样 可 以 有 效 减少 需要 设置 的 锁 数量 。 在 我 们 的 银行 例子 中 ， 支 行 是 父 节 点 ， 而 账户 
是 子 节点 (如 图 13-25 所 示 )。 | 


nh 
ko 
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银行 支行 
A B Cc 账户 


图 13-25 银行 例子 的 锁 层 次 


混合 粒度 的 锁 在 日 记 系 统 中 很 有 用 ， 这 里 的 数据 按照 每 周 的 天 数 分 成 不 同 部 分 ， 而 每 天 的 数 
据 又 可 以 继续 按时 间 段 进行 细 分 ， 如 图 13-26 所 示 。 查 看 一 周 情 况 的 操作 需要 在 整个 层次 的 最 顶层 
加 锁 ， 而 输入 约会 的 操作 只 需要 在 某 个 时 间 段 上 加 写 锁 。 加 在 星期 上 的 读 锁 会 阻塞 任 一 子 结构 
(例如 该 星期 每 一 天 的 所 有 时 间 段 上 ) 的 写 操作 。 
星期 
一 -~ | ， ， - 


星期 一 ”星期 二 星期 三 。 星期 四 ”星期 五 
时 间 眉 
9:00-10:00 10:00-11:00 11:00-12:00 12:00-13:00 13:00-14:00 14:00-15:00 15:00-16:00 


图 13-26 日 记 的 锁 层 次 


在 Gray 的 机 制 中 ， 层 次 中 的 每 个 节点 都 可 以 加 锁 一 一 此 后 ， 锁 的 拥有 者 能 显 式 访问 该 节点 并 
隐 式 访问 它 的 子 节点 。 在 图 13-25 所 示 的 例子 中 ， 对 支行 的 读 / 写 锁 隐 含 地 对 所 有 账户 加 上 了 读 / 写 
锁 。 在 给 子 节 点 加 上 读 / 写 锁 时 ， 需 要 在 它 的 父 节 点 和 祖先 节点 (如果 有 ) 上 设置 一 个 读 / 写 试图 锁 。 
这 个 试图 锁 和 其 他 类 型 的 试图 锁 是 相 容 的 , 但 是 和 读 / 写 锁 冲 突 。 图 13-27 给 出 了 层次 锁 的 相 容 性 表 。 
Gray 还 提出 了 第 三 种 类 型 的 试图 锁 一 一 该 锁 结合 了 读 锁 和 写 试图 锁 的 性 质 。 

















设 署 的 
对 基 个 对 象 要 疫 置 的 镇 

read write Lread lI-write 
已 设置 的 锁 none OK OK OK OK 
read OK 等 待 OK 等 待 


write 等 待 等 待 等 待 等 待 
I-read OK 等 待 OK OK 
I-write 等 待 等 待 OK OK 





图 13-27 层次 锁 的 锁 相 容 性 表 . 

在 我 们 的 银行 例子 中 ，branchTotal 操 作 请 求 在 支行 上 加 上 读 锁 ， 即 隐 含 地 对 所 有 账户 加 上 了 
读 锁 。deposit 操 作 需 要 在 余额 上 设置 写 锁 ， 但 是 它 首 先 试图 在 支行 上 加 上 写 试图 锁 。 图 13-27 中 的 
规则 可 以 防止 这 两 个 操作 并 发 运行 。 

当 需 要 混合 粒度 的 锁 时 ， 层 次 锁具 有 减少 锁 数量 的 优势 。 但 是 它 的 相 容 性 表 和 锁 提升 规则 更 
加 复杂 。 

混合 粒度 的 锁 人 允许 每 个 事务 按 其 需要 锁 住 部 分 数据 。 一 个 访问 大 量 对 象 的 长 事务 可 能 需要 锁 
住 整个 系统 ， 而 一 个 短 事务 只 需 锁 住 细 粒度 的 数据 。 

CORBA 并 发 控制 服务 支持 可 变 粒 度 的 加 锁 ， 包 括 试图 读 和 试图 写 锁 类 型 。 它 们 可 按 上 述 方式 
使 用 ， 从 而 利用 在 层次 结构 化 数据 中 应 用 不 同 粒度 锁 的 好 处 。 


13.5 乐观 并 发 控制 
Kung 和 Robinson[1981] 指 出 了 锁 机 制 的 许多 固有 的 不 足 ， 并 提出 了 另 一 种 串 行 化 事务 的 乐观 
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方法 来 避免 锁 机 制 的 缺点 。 我 们 将 加 锁 的 缺点 总 结 如 下 : 

。 锁 的 维护 带 来 了 新 的 开销 ， 这 些 开 销 在 不 支持 对 共享 数据 并 发 访问 的 系统 中 是 没有 的 。 即 使 

是 只 读 事 务 (查询 )， 它 不 可 能 改变 数据 的 完整 性 ， 通 常 仍然 需要 利用 锁 来 保证 数据 在 读 取 

时 不 会 被 其 他 事务 修改 。 但 是 锁 只 在 最 坏 的 情况 下 起 作用 。 

例如 ， 有 两 个 并 发 执行 的 客户 进程 将 x 个 对 象 的 值 增 !。 如 果 这 两 个 客户 程序 同时 开始 执行 并 

运行 相同 的 上 时间， 但 它们 访问 对 象 的 次 序 不 相关 ， 并 使 用 独立 的 事务 来 访问 并 增加 对 象 的 值 ， 

那么 这 两 个 程序 同时 访问 到 同一 个 对 象 的 概率 只 有 1/n， 因 此 每 n 个 事务 只 有 1 个 才 真 正 需要 加 锁 。 

* 使 用 锁 会 引起 死 锁 。 预 防 死 锁 会 严重 降低 并 发 度 ， 因 此 必须 利用 超时 或 者 死 锁 检测 来 解除 死 

锁 ， 但 这 两 种 死 锁 解除 方法 对 交互 程序 来 说 都 不 理想 。 

* 为 了 避免 连锁 放弃 ， 锁 必须 保留 到 事务 结束 才能 释放 。 这 会 显著 地 降低 潜在 的 并 发 度 。 

Kung 和 Robinson 提 出 的 另 一 个 方法 是 一 种 “乐观 ”策略 ， 这 是 因为 他 们 发 现 这 样 一 个 现象 ， 
即 在 大 多 数 应 用 中 ， 两 个 客户 事务 访问 同一 个 对 象 的 可 能 性 是 很 低 的 。 事 务 总 是 能 够 执行 ， 就 好 
像 事 务 之 间 不 存在 冲突 一 样 。 当 客户 完成 其 任务 并 发 出 closeTransaction 请 求 时 ， 再 检测 是 否 有 冲 
突 。 如 果 确 实 存 在 冲突 ， 那 么 一 些 事务 将 被 放弃 ， 并 需要 客户 重新 启动 该 事务 。 每 个 事务 分 成 下 
面 几 个 阶段 : 

“工作 阶段 : 在 事务 的 工作 阶段 ， 每 个 事务 拥有 所 有 它 修改 的 对 象 的 临时 版 本 。 这 个 临时 版 本 

是 对 象 最 新 提交 版 本 的 拷贝 。 使 用 临时 版 本 ， 事 务 便 可 以 在 工作 阶段 放弃 或 者 在 与 其 他 事务 

发 生 冲 突 不 能 通过 验证 时 放弃 〈 而 不 产生 副作用 ) 。 读 操作 总 是 可 以 立即 执行 一 -如 果 事 务 

的 临时 版 本 已 经 存在 ， 那 么 读 操作 访问 这 个 临时 版 本 ， 否 则 ， 访 问 对 象 最 新 提交 的 值 。 写 操 

作 将 对 象 的 新 值 记 录 成 临时 值 (这 个 临时 值 对 其 他 事务 是 不 可 见 的 )。 当 系统 中 存在 多 个 并 

发 事务 时 ， 一 个 对 象 有 可 能 存在 多 个 临时 版 本 。 另 外 ， 每 个 事务 还 维护 被 访问 对 象 的 两 个 集 

合 : 读 集合 包含 事务 读 的 所 有 对 象 ， 写 集合 包含 事务 写 的 对 象 。 注 意 ， 所 有 的 读 操作 都 是 在 

对 象 的 提交 版 本 (或 它们 的 副本 ) 上 执行 ， 因 此 不 会 出 现 脏 数据 读 取 。 

* 验证 阶段 : 在 接收 到 closeTransaction 请 求 时 验证 事务 ， 判 断 它 在 对 象 上 的 操作 是 否 与 其 他 事 

务 对 同一 对 象 的 操作 相 冲 突 。 如 果 验 证 成 功 ， 那 么 该 事务 就 允许 提交 ， 否 则 ， 必 须 使 用 某 种 

冲突 解除 机 制 ， 或 者 放弃 当前 事务 ， 或 者 放弃 其 他 与 当前 事务 冲突 的 事务 。 

“更 新 阶段 ， 当 事务 通过 验证 以 后 ， 记 录 在 所 有 临时 版 本 中 的 更 新 将 持久 化 。 只 读 事务 可 在 通 

过 验证 后 立即 提交 。 写 事务 在 对 象 的 临时 版 本 记录 到 持久 存储 后 即 可 提交 。 

事务 的 验证 ”验证 过 程 使 用 读 -- 写 冲突 规则 来 确保 某 个 事务 的 执行 对 其 他 重 骆 事 务 而 言 是 串 行 
等 价 的 ， 重 登 事务 是 指 在 该 事务 启动 时 还 没有 提交 的 任何 事务 。 为 了 帮助 完成 验证 过 程 ， 每 个 事 
务 在 进入 验证 阶段 之 前 〈 即 在 客户 发 出 closeTransaction 了 时 ) 被 赋予 一 个 事务 号 。 如 果 事 务 通过 验 
证 并 且 成 功 完成 ， 那 么 它 保留 这 个 事务 号 ， 如 果 事 务 未 通过 验证 并 被 放弃 ， 或 者 它 是 只 读 事务 ， 
那么 这 个 事务 号 被 释放 以 便 重用 。 事 务 号 是 整数 ， 并 按照 升序 分 配 ， 因 此 事务 号 定义 了 该 事务 所 
处 的 时 间 位 置 一 一 一 个 事务 总 是 在 序号 比 它 小 的 事务 之 后 完成 它 的 工作 阶段 。 也 就 是 说 ， 如 果 i<j， 
那么 事务 号 为 T 的 事务 总 是 在 事务 号 为 T) 的 事务 之 前 。( 如 果 在 工作 阶段 的 开始 分 配 事 务 号 ， 那 么 
一 个 事务 若 在 另 一 个 具有 更 小 事务 号 的 事务 之 前 到 达 工 作 阶段 的 结尾 ， 就 要 在 验证 前 一 直 等 待 前 
者 完成 。) 

对 事务 T, 的 验证 测试 是 基于 事务 T, 和 T, 之 间 的 操作 冲突 完成 的 。 事 务 T, 对 重叠 事 务 T, 而 言 是 
可 串 行 化 的 ， 那 么 它们 的 操作 必须 符合 下 面 的 规则 ， 





T, T 规 则 
write read 1) T 不 能 读 取 T, 写 的 对 象 
read write 2) T, 不 能 读 取 T, 写 的 对 象 


write write 3) Tj 不 能 写 T, 写 的 对 象 ， 并 且 T, 不 能 写 T 写 的 对 象 
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与 事务 的 工作 阶段 相 比 ， 验 证 过 程 和 更 新 过 程 通常 只 需要 很 短 的 时 间 ， 因 此 可 以 采用 一 个 简 
单 的 方法 : 每 次 只 允许 一 个 事务 处 于 验证 和 更 新 阶段 。 当 任何 两 个 事务 都 不 会 在 更 新 阶段 重合 时 ， 
规则 3 自动 满足 。 注 意 ， 在 写 操作 上 的 这 个 限制 和 不 发 生 脏 数据 读 取 这 个 事实 ， 将 产生 事务 的 严格 
执行 。 为 了 防止 重合 ， 整 个 验证 和 更 新 阶段 被 实现 成 一 个 临界 区 ， 使 得 每 次 只 能 有 一 个 客户 执行 。 
为 了 增加 并 发 度 ， 验 证 和 更 新 的 部 分 操作 可 以 在 临界 区 之 外 实现 ， 但 是 必须 串 行 地 分 配 事务 号 。 
我 们 注意 到 ， 在 任何 时 刻 ， 当 前 的 事务 号 就 像 一 个 伪 时 钟 ， 每 当 事 务 成 功 结束 ， 这 个 时 钟 就 产生 
一 次 咬 哮 。 

事务 的 验证 必须 保证 事务 T, 和 T; 的 对 象 之 间 的 重合 遵守 规则 1 和 规则 2。 有 两 种 形式 的 验 
证 向 前 验证 和 向 后 验证 [Hirder 1984 和 。 向 后 验证 检查 当前 事务 和 其 他 较 早 重合 事 务 之 间 的 冲 
突 ， 向 前 验证 检查 当前 事务 和 其 他 较 晚 的 事务 之 间 的 冲突 。 

向 后 验证 ”由 于 较 早 的 重合 事务 的 读 操 作 在 T, 验 证 之 前 进行 ， 因 此 它们 不 会 受 当前 事务 写 操 
作 的 影响 (满足 规则 1) 。T, 的 验证 过 程 将 检查 它 的 读 集 ( 受 T, 的 读 操作 影响 的 对 象 ) 是 否 和 其 他 较 
早 的 重 倒 事务 T, 的 写 集 是 否 重 又 (规则 2)。 如 果 存 在 重合 ， 验 证 失败 。 

设 startTn 是 事务 T, 进 入 其 工作 阶段 时 系统 已 分 配 (给 其 他 已 提交 事务 ) 的 最 大 事务 号 ， 
finishTn 是 T, 进 入 验证 阶段 时 系统 已 分 配 的 最 大 事务 号 。 下 面 的 程序 描述 了 T, 的 验证 算法 : 

boolean valid = true; 

for (intT,= startTn + 1; T,<= finishTn;: T++) { 

if(7\, 的 读 集 与 7, 写 集 相 交 )valid = false; 

大 

图 13-28 给 出 了 T, 验 证 过 程 中 需要 考虑 的 重 双 事务。 时 间 从 左 至 右 增 加 。T,、T; 和 TT 是 较 早 提 
交 的 事务 。Ti 在 T, 开 始 之 前 提交 。T 和 T, 在 T, 完 成 其 工作 阶段 前 提交 ， 并 且 有 starITn+1=T， 
jinishTm=T,。 向 后 验证 过 程 必 须 比较 T, 的 读 集 和 T;、T 的 写 集 。 

工作 阶段 验证 阶段 更 新 阶段 
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图 13-28 事务 的 验证 过 程 


向 后 验证 比较 被 验证 事务 的 读 集 和 已 提交 事务 的 写 集 。 因 此 一 旦 验证 失败 ， 解 决 冲突 的 唯一 
方法 就 是 放弃 当前 进行 验证 的 事务 。 

在 向 后 验证 中 ， 没 有 读 操作 (只 有 写 操作 ) 的 事务 无 需 进行 验证 。 

向 后 验证 的 乐观 并 发 控制 要 求 最 近 提交 事务 中 对 象 的 已 提交 版 本 的 写 集合 必须 保留 ， 直 到 没 
有 可 能 发 生 冲 突 的 未 验证 重 和 从 事务 。 每 当 一 个 事务 成 功 通过 验证 ， 它 的 事务 号 、startTn 和 写 集合 
被 记录 在 前 述 的 事务 列表 中 ， 这 个 列表 由 事务 服务 维护 。 注 意 ， 这 个 列表 按 事 务 号 排序 。 如 果 有 
长 事务 存在 ， 较 早 事务 的 写 集合 的 保留 将 是 一 个 问题 。 例 如 在 图 13-28 中 ，T,、T，、T3 和 T, 的 写 集 
合 必须 保留 到 活动 事务 active, 结 束 之 后 。 值 得 注意 的 是 ， 尽 管 这 个 活动 事务 有 事务 标识 符 ， 但 它 还 
没有 事务 号 。 

向 前 验证 ”在 事务 T, 的 向 前 验证 中 ，T, 的 写 集合 要 与 所 有 重合 的 活动 事务 的 读 集合 进行 比 
较 一 一 活动 事务 是 那些 处 在 工作 阶段 中 的 事务 (规则 1)。 规 则 2 自动 满足 ， 因 为 活动 事务 在 T, 完 成 





之 前 不 会 进行 写 操 作 。 设 活动 事务 具有 (连续 的 ) 事务 标识 符 (从 active,~ activeN) ， 那 么 下 面 程 
序 描述 了 T, 的 向 前 验证 算法 ; 
boovlean valid = true; 
for (int Ti = activeys: Tis <= activew; Tat+){ 
f(T, 的 写 第 与 7 的 读 集 相 交 ) valid = false; 

} 

在 图 13-28 中 ,T, 的 写 集合 必须 和 事务 active, 和 active, 的 读 集 合 进行 比较 。( 向 前 验证 应 该 允许 
活动 事务 的 读 集合 在 验证 过 程 和 写 人 过 程 中 改变 。) 由 于 被 验证 事务 的 读 集合 没有 包括 在 验证 过 程 
中 ， 因 此 只 读 事务 总 能 通过 验证 。 因 为 与 被 验证 事务 进行 比较 的 事务 仍 是 活动 的 ， 所 以 发 生 冲 突 
时 ， 可 以 选择 或 者 放弃 被 验证 事务 或 者 用 其 他 方法 解决 冲突 。Hirder[1984] 提 出 了 下 面 几 个 策略 : 

* 推迟 验证 , 直到 冲突 事务 结束 为 止 。 但 是 这 不 能 保证 被 验证 的 事务 在 将 来 一 定 能 够 通过 验证 ， 

在 验证 完成 前 ， 还 是 有 可 能 启动 会 产生 冲突 的 活动 事务 。 

“放弃 所 有 有 冲突 的 活动 事务 ， 提 交 已 验证 的 事务 。 

* 放弃 被 验证 事务 。 这 是 最 简单 的 策略 ， 但 是 由 于 冲突 的 活动 事务 可 能 在 将 来 被 放弃 ， 因 此 这 

种 策略 会 造成 被 验证 事务 的 不 必要 放弃 。 

向 前 验证 和 向 后 验证 的 比较 ”我们 看 到 ， 向 前 验证 在 处 理 冲 突 时 有 较 强 的 灵活 性 ， 而 向 后 验 
证 只 有 一 种 选择 ， 即 放弃 被 验证 的 事务 。 通 常 ， 事 务 的 读 集合 比 写 集合 大 得 多 。 因 此 ， 向 后 验证 
将 较 大 的 读 集合 和 较 早 事务 的 写 集合 进行 比较 ， 而 向 前 验证 将 较 小 的 写 集合 和 活动 事务 的 读 集合 
比较 。 我 们 注意 到 ， 向 后 验证 涉及 存储 已 提交 事务 写 集合 (直到 不 再 需要 它们 为 止 ) 的 开销 。 另 
一 方面 ， 向 前 验证 不 得 不 允许 在 验证 过 程 中 开始 新 事务 。 

饥饿 ”在 一 个 事务 被 放弃 后 ， 它 通常 由 客户 程序 重新 启动 。 但 是 这 种 依赖 放弃 和 重新 启动 事 
务 的 机 制 不 能 保证 事务 最 终 能 够 通过 验证 检查 ， 这 是 因为 每 次 重新 运行 后 它 都 有 可 能 与 其 他 事务 
访问 相同 的 对 象 从 而 产生 冲突 。 这 种 阻止 事务 最 终 提交 的 现象 称 为 饥 馈 。 

出 现 饥 饿 的 情形 很 少 ， 但 是 使 用 了 乐观 并 发 控制 的 服务 器 必须 保证 客户 的 事务 不 能 反复 放弃 。 
Kung 和 Robinson 认 为 ， 服 务 器 在 检测 到 事务 被 多 次 放弃 后 ， 能 够 保证 该 事务 不 再 被 放弃 ， 他 们 建 
议 一 旦 服务 器 检测 到 这 样 的 事务 ， 服务 器 应 该 让 该 事务 利用 由 信号 量 保 护 的 临界 区 对 服务 器 上 的 
资源 进行 互 斥 访问 。 


13.6 时 间 稚 排序 


在 基于 时 间 戳 排序 的 并 发 控制 机 制 中 ， 事 务 中 的 每 一 个 操作 在 执行 之 前 要 先进 行 验证 。 如 果 
该 操作 不 能 通过 验证 ， 那 么 事务 将 被 立即 放弃 ， 然 后 由 客户 重新 启动 该 事务 。 每 个 事务 在 启动 时 
被 赋予 一 个 唯一 的 时 间 惟 。 这 个 时 间 蕉 定义 了 该 事务 在 事务 时 间 序 列 中 的 位 置 ， 来 自 不 同事 务 的 
操作 请 求 可 以 根据 它们 的 时 间 惟 进行 全 排序 。 基 本 的 时 间 蕉 排序 规则 基于 操作 之 间 的 冲突 ， 也 是 
非常 简单 的 : 

“只 有 在 对 象 最 后 一 次 读 访问 或 写 访 问 是 由 一 个 较 早 的 事务 执行 的 情况 下 ， 事 务 对 该 对 象 的 写 

请 求 是 有 效 的 。 只 有 在 对 象 的 最 后 一 次 写 访 问 是 由 一 个 较 早 的 事务 执行 的 情况 下 ， 事 务 的 对 

该 对 象 的 读 请 求 是 有 效 的 。 

这 个 规则 假设 系统 中 的 每 个 对 象 只 有 一 个 版 本 ， 并 且 每 个 对 象 一 次 只 能 由 一 个 事务 访问 。 如 
果 每 个 事务 都 有 其 所 访问 对 象 的 临时 版 本 ， 那 么 多 个 并 发 事务 可 同时 访问 一 个 对 象 。 通 过 细 化 时 
间 惟 排序 规则 可 以 保证 每 个 事务 访问 的 对 象 版 本 是 一 致 的 ， 同 时 它 也 必须 保证 对 象 的 临时 版 本 按 
事务 的 时 间 戳 所 决定 的 顺序 提交 。 这 是 通过 在 必要 时 让 事务 等 待 ， 以 便 使 较 早 的 事务 完成 它们 的 
写 操作 来 实现 的 。 这 些 写 操作 可 在 closeTransaction 返 回 之 后 执行 ， 这 样 ， 客 户 就 不 用 等 待 了 。 但 
是 当 读 操作 需要 等 待 较 早 的 事务 完成 时 ， 客 户 必 须 等 待 。 由 于 事务 总 是 等 待 较 早 的 事务 (在 等 待 
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图 中 不 可 能 形成 环 )， 因 此 不 会 引起 死 锁 。 

可 以 根据 服务 器 的 时 钟 来 给 时 间 戳 赋值， 或 者 利用 前 面 介绍 的 “ 伪 时 间 ” 来 给 时 间 戳 赋值 ， 
擅 时 间 基 于 一 个 计数 器 ， 每 次 获取 时 间 惟 的 请 求 都 会 使 计数 器 加 一 。 关 于 在 事务 服务 是 分 布 的 、 
一 个 事务 涉及 几 个 服务 器 的 环境 中 如 何 生成 时 间 戳 的 问题 ， 我 们 将 在 第 14 章 中 进行 讨论 。 

下 面 我 们 描述 SDD-1[Bernstein et al. 1980] 系 统 中 采用 的 并 由 Ceri 和 Pelagatti[1985] 描 述 的 基于 
时 间 罗 的 并 发 控制 方法 。 

和 其 他 方法 一 样 ， 写 操作 被 记录 在 对 象 的 临时 版 本 中 并 对 其 他 事务 是 不 可 见 的 ， 直 到 调用 了 
closeTransaction 请 求 并 提交 了 事务 。 每 个 对 象 有 一 个 写 时 间 蕉 、 若 干 临时 版 本 和 一 个 读 时 间 愉 集 
合 ， 其 中 每 个 临时 版 本 都 有 一 个 写 时 间 戳 。( 已 提交 ) 对 象 的 写 时 间 翼 比 它 的 所 有 临时 版 本 都 要 早 ， 
它 的 所 有 读 时 间 蕉 可 以 用 其 中 的 最 大 值 来 代表 。 每 当 服务 器 接受 一 个 事务 对 某 个 对 象 的 写 操作 时 ， 
服务 器 就 创建 该 对 象 的 一 个 新 的 临时 版 本 ， 并 将 读 临 时 版 本 的 写 时 间 玲 设置 为 这 个 事务 的 时 间 截 。 
事务 的 读 操 作 作 用 于 时 间 惟 为 小 于 该 事务 时 间 蕉 的 最 大 写 时 间 戳 的 对 象 版 本 上 。 一 旦 事务 对 某 个 
对 象 的 读 操作 被 接受 ， 该 事务 的 时 间 戳 就 被 加 入 到 读 时 间 蕉 集合 中 。 当 事务 被 提交 时 ， 临 时 版 本 
的 值 就 变 成 对 象 的 值 ， 临 时 版 本 的 时 间 玲 变 成 相应 对 象 的 时 间 蕉 。 

在 时 间 惟 排序 中 ， 需 要 检查 事务 对 对 象 的 每 个 读 / 写 操作 请 求 ， 看 它 是 否 与 操作 冲突 规则 一 致 。 
当前 事务 T. 的 请 求 会 与 其 他 事务 T 之 前 的 操作 相 冲突 ，T 的 时 间 蕉 表 明 它 们 应 该 比 T. 晚 。 图 13-29 给 
出 了 这 些 规则 ， 其 中 T>T, 表 示 T, 晚 于 T.，T<T. 表 示 T 早 于 T.。 


write read 如果 7 >T.， 那 么 7. 不 能 写 被 7 读 过 的 对 象 ， 这 要 求 7,> 该 对 象 的 最 大 读 时 间 玲 


write write 如 果 7 >7T.， 那 么 7T. 不 能 写 被 7, 写 过 的 对 象 ， 这 要 求 T.> 已 提交 对 象 的 写 时 间 上 规 
read ”write ”如果 7,>T.， 那 么 T. 不 能 读 被 7, 写 过 的 对 象 ， 这 要 求 7. > 已 提交 对 象 的 写 时 间 难 





图 13-29 时 间 蕉 排序 中 的 操作 冲突 


时 间 败 排序 的 写 规则 : 通过 结合 规则 1 和 规则 2， 我 们 可 以 得 到 下 列 规则 ， 该 规则 用 于 决定 是 
否 接受 事务 T. 对 对 象 D 执 行 写 操作 : 

f(T. 之 D 的 最 大 读 肝 间 虐 && 7. > D 的 起 交 版 本 上 的 写 时 间 吕 ) 

帮 D 的 临时 版 本 上 执行 写 所 作 ， 写 时 间 翼 置 为 T.: 

else /* 写 所 作 太 脆 也 

放疗 事务 T.: 

如 果 写 时 间 截 为 T, 的 对 象 临 时 版 本 已 经 存在 ， 那 么 写 操作 直接 作用 于 这 个 版 本 ， 否 则 服务 器 
创建 一 个 新 的 临时 版 本 并 且 为 其 标记 上 写 时 间 截 T,。 值 得 注意 的 是 ,“ 到 达 太 晚 的 ” 写 操作 将 引起 
事务 放弃 ， 这 里 的 “ 太 晚 ”是 指 具 有 后 来 时 间 惟 的 事务 已 经 读 或 写 了 这 个 对 象 。 

图 13-30 说 明了 事务 T; 的 写 操作 的 执行 情况 ， 其 中 T; 宇 对 象 的 最 大 读 时 间 具 (图 上 没有 给 出 读 
时 间 殊 )。 在 情况 8、b 和 c 中 ，T;> 对 象 的 提交 版 本 的 写 时 间 玲 ， 因 此 服务 器 创建 一 个 写 时 间 戴 为 T， 
的 对 象 临时 版 本 ， 并 将 其 插入 到 按 事 务 时 间 截 排序 的 临时 版 本 列表 中 。 在 情况 d 中 ，T;< 对 象 提交 
版 本 的 写 时 间 惟 ， 因 此 事务 Ti 被 放弃 。 

时 间 苇 排序 的 读 规则 : 应 用 规则 3， 我 们 可 以 得 到 下 面 的 规则 ， 该 规则 用 于 决定 马上 接受 、 等 
待 或 拒绝 事务 T. 对 对 象 D 执 行 读 操作 的 请 求 : 

六 (T, > D 想 交 版 本 的 写 肝 说 战 ) { 

设 Dwres 是 D 的 具 丰 最 大 写 时 间 吕 的 版 杰 <7 
f(Diaenns 已 想 奖 ) 
在 Duwenws 版 本 上 完成 恋 据 作 : 


else 
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等 什 直 到 形成 Dues 版 杰 的 下 务 想 交 或 放弃 ,然后 重新 应 朋 读 规划 ， 
2 else 
放弃 下 务 T.; 
2 图 zi 国电 图 例 
a 提交 版 
之 后 和 z 后 力 加 . 洋 
人 一 一 一 一 一 一 > 时间 宫 
a) 7; 写 操作 和 b) 了 写 操作 临时 版 本 
时 事务 T; 产 生 的 对 象 
( 写 时 间 蕉 为 T,) 
之 前 前 和 之 前 对 i TDL 
2 后 国 凡 六 |>6 到 
时 间 时 间 
ce) 元 写 操作 d) T 写 操作 
图 13-30 写 操作 和 时 间 戳 
注意 以 下 几 点 : 


。 如 果 事 务 T, 已 经 写 了 对 象 D 的 临时 版 本 ,那么 读 操作 将 针对 这 个 临时 版 本 。 

“如 果 读 操作 来 得 太 早 ， 那 么 它 要 等 待 前 面 的 事务 完成 。 如 果 较 早 的 事务 已 提交 ， 则 T. 的 读 操 
作 将 针对 对 象 的 已 提交 版 本 。 如 果 较 早 的 事务 被 放弃 ， 那 么 T. 将 重复 读 规 则 (选择 以 前 的 版 
本 )。 这 个 规则 可 防止 胜 数据 读 取 。 

。“ 到 达 太 晚 的 ” 读 操 作 将 被 放弃 ， 太 晚 是 指 具 有 后 来 时 间 戳 的 事务 已 经 写 了 相应 的 对 象 。 

图 13-31 说 明了 时 间 戳 排序 的 读 规则 ， 图 中 共有 4 种 情况 ， 分 别 标记 为 a~ d， 它 们 均 用 于 说 明 
事务 T; 的 读 操作 动作 。 在 每 种 情况 下 ， 服 务 器 选 出 一 个 写 时 间 戳 小 于 或 等 于 Ts 的 版 本 。 如 果 存 在 这 
样 的 版 本 ， 那 么 在 图 中 用 一 个 短线 做 标记 。 在 情况 a 和 b 中 ， 读 操作 针对 提交 版 本 一 一 在 a 中 ， 该 提 
交 版 本 是 对 象 的 唯一 版 本 ， 而 在 b 中 ， 有 一 个 临时 版 本 属于 另 一 个 较 晚 的 事务 。 在 情况 c 中 ， 读 操 
作 针 对 临时 版 本 ， 并 且 必 须 等 待 制作 该 临时 版 本 的 事务 提交 或 者 放弃 。 在 情况 d 中 ， 由 于 没有 合适 
的 版 本 用 于 读 操作 ， 事 务 T; 被 放弃 。 





图 例 : 
多 读 操作 执行 村 坟 。 读 操作 执行 议 
| 
被 选中 i 被 选中 时 间 提交 版 本 
a) T 读 操作 b) T 读 操作 , 
临时 版 本 
池 7，。 ” 读 操作 等 待 次 事务 被 放弃 事务 T, 产 生 的 对 象 〔 写 
; 时 间 惟 为 Ti) 
选中 汪 宙 [= 二 = 和 TT 
c) 7 读 操作 d) 区 读 操作 


图 13-31 读 操作 和 时 间 蕉 


当 一 个 协调 者 收 到 提交 事务 的 请 求 后 ， 由 于 事务 的 所 有 操作 在 执行 之 前 都 进行 了 一 致 性 检查 ， 
因此 它 总 能 提交 。 必 须 按照 时 间 惟 顺序 创建 每 个 对 象 的 提交 版 本 。 因 此 ， 协 调 者 在 写 某 个 事务 所 
访问 的 对 象 的 提交 版 本 之 前 ， 可 能 需要 等 待 较 早 的 事务 结束 ， 不 过 客户 并 不 需要 等 待 。 为 了 保证 
在 服务 器 崩溃 后 事务 是 可 恢复 的 ， 在 确认 客户 提交 事务 的 请 求 之 前 ， 必 须 将 对 象 的 临时 版 本 和 提 
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交 信息 记录 到 持久 存储 中 。 

需要 指出 的 是 ， 这 里 的 时 间 携 排序 算法 是 严格 的 一 一 它 保证 了 事务 的 严格 执行 (参见 13.2 节 )。 
时 间 惟 排序 的 读 规 则 要 求 事 务 对 对 象 的 读 操作 等 待 ， 直 到 所 有 写 该 对 象 的 较 早 事务 提交 或 者 放弃 
为 止 。 对 象 的 提交 版 本 也 按时 间 蕉 顺序 排列 ， 以 保证 事务 对 对 象 的 写 操作 必须 等 待 ， 直 到 所 有 写 
对 象 的 较 早 事务 提交 或 者 放弃 为 止 。 

图 13-32 说 明了 如 何 利用 时 间 功 排序 方法 来 控制 图 13-7 中 的 并 发 银行 事务 T 和 U。 其 中 列 A、B 
和 C 分 别 表示 不 同 的 银行 账户 。 每 个 账户 有 一 项 RTS ， 用 于 记录 最 大 的 读 时 间 蕉 ， 还 有 一 项 WTS ， 
用 于 记录 每 个 版 本 的 写 时 间 蕉 ， 其 中 提交 版 本 的 时 间 惟 用 粗 体 表 示 。 最 初 ， 每 个 账户 拥有 由 事务 $ 
写 入 的 提交 版 本 ， 读 时 间 蕉 集合 为 空 。 假 设 $ < T < U。 图 中 的 例子 表示 当 事 务 U 准 备 获 取 账 户 B 的 
余额 时 ， 它 必须 等 待 事务 T 结 束 ， 这 样 它 才能 读 取 由 T 设 置 的 值 (假设 提交)。 


对 象 的 不 同 版 本 及 其 时 间 戳 
A B C 
RTS WITS RTS WT7TS RTS WTS 
全 S {} 5S {} S 
openTransaction 
bal= b.getBalancel) {7T} 
openTransaction 
b.setBalance(bal*1.1) 
bal = b.gerBalance() 
wait for T 
a.withdraw{bal/10) 


commit 


bal = b.getBalancel) 
b.setBalance(bal*].1) 
c.withdraw(bal/10) 





图 13-32 事务 T 和 U 中 的 时 间 戳 


这 里 介绍 的 时 间 惟 方法 能 够 避免 死 锁 ， 但 是 它 容易 造成 事务 重启 动 。 一 个 被 称 为 “忽略 过 时 
写 ” 规 则 的 修改 方案 提供 了 一 种 改进 方法 。 它 对 时 间 惟 排序 的 写 规则 做 了 如 下 一 些 改动 

* 如 果 写 操作 来 得 太 晚 ， 那 么 直接 忽略 这 个 操作 ， 而 不 是 放弃 该 事务 ， 这 是 因为 即使 它 来 得 早 

一 些 时 ， 它 的 更 新 效果 也 会 被 覆盖 。 然 而 ， 如 果 其 他 事务 读 取 了 该 对 象 ， 那 么 这 个 写 操作 会 

因为 读 时 间 蕉 而 失败 。 

多 版 本 时 间或 排序 ”本 节 将 介绍 如 何 通过 允许 每 个 事务 写 自己 的 对 象 临时 版 本 来 提高 基本 时 
间 惟 排序 的 并 发 度 。 在 由 Reed[1983] 引 入 的 多 版 本 时 间 蕉 排序 中 , 每 个 对 象 除了 有 若干 临时 版 本 外 ， 
还 有 一 个 已 提交 版 本 列表 。 此 列表 记录 了 对 象 值 的 历史 。 利 用 多 版 本 的 好 处 在 于 ， 过 迟到 达 的 读 
操作 不 会 被 拒绝 。 

对 象 的 每 个 版 本 除了 有 一 个 写 时 间 戳 外 ， 还 有 一 个 读 时 间 改 ， 用 于 记录 读 该 版 本 的 事务 的 最 
大 时 间 戳 。 和 以 前 一 样 ， 每 当 一 个 写 操作 被 接受 后 ， 它 将 针对 与 事务 写 时 间 戳 相应 的 临时 版 本 进 
行 操作 。 每 当 执行 读 操 作 时 ， 它 将 针对 具有 小 于 该 事务 时 间 戳 的 最 大 写 时 间 戳 的 版 本 进行 操作 。 
如 果 事 务 时 间 蕉 大 于 所 使 用 版 本 的 读 时 间 戳 ， 那 么 该 版 本 的 读 时 间 惟 被 设置 成 该 事务 的 时 间 戳 。 

当 读 操 作 太 述 到 达 时 ， 人 允许 它 读 取 一 个 较 早 的 已 提交 版 本 ， 这 样 就 没 必要 放弃 这 个 读 操作 了 。 
在 多 版 本 时 间 惟 排序 中 ， 读 操作 总 是 被 允许 的 ， 尽 管 它们 有 可 能 要 等 待 较 早 的 事务 结束 (或 提交 
或 放弃 ) 来 保证 事务 执行 是 可 恢复 的 。 练 习 13.22 讨 论 了 连锁 放弃 的 可 能 性 问题 。 它 用 于 处 理 时 间 
蕉 排序 的 冲突 规则 3。 
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不 同事 务 的 写 操作 之 间 不 存在 冲突 ， 因 为 每 个 事务 进行 写 操作 时 都 针对 所 访问 对 象 的 已 提交 
版 本 ， 这 样 ， 就 不 需要 时 间 惟 排序 的 冲突 规则 2 了 ， 仅 留 下 下 面 的 规则 : 

规则 1 TT 不 能 写 事 务 T; 读 过 的 对 象 ， 其 中 T;> T。 

如 果 对 象 的 某 个 版 本 的 读 时 间 惟 大 于 T.， 那 么 这 条 规则 就 被 破坏 了 ， 但 只 有 在 该 版 本 有 一 个 
小 于 或 等 于 T. 的 写 时 间 蕉 时 才 会 这 样 。( 这 个 写 操作 不 能 影响 以 后 的 版 本 。) 

多 版 本 时 间 稚 排序 的 写 规则 : 由 于 每 个 可 能 冲突 的 读 操作 被 作用 于 对 象 最 近 的 一 个 版 本 上 ， 
所 以 服务 器 查看 具有 小 于 或 等 于 T. 的 最 大 写 时 间 惟 的 对 象 版 本 Deor。 以 下 规则 用 于 执行 事务 IT 
在 对 象 D 上 执行 写 操作 的 请 求 : 

让 (Dwargorier 的 恋 肝 间 惟 入 7.) 

在 D 的 临时 版 太 上 完 成 写 操作 ， 并 标记 上 写 肝 间 截 T. 


else 
放弃 盘 务 T. 

图 13-33 说 明了 一 个 写 操作 被 拒绝 的 例子 。 图 中 的 对 象 有 两 个 写 时 间 玲 为 T, 和 T, 的 提交 版 本 。 
该 对 象 收 到 下 列 对 对 象 进行 操作 的 请 求 序 ak . en 
列 ， Tsread;  T: write; Tsread; TT, write; 

Ta read; T write; Ts read; Ts write; | : 

1) Ts 请 求 一 个 读 操作 ， 它 在 T; 版 本 上 ~ 项 到 
设置 读 时 间 戳 Ti。 

2) Ts 请 求 一 个 写 操作 ， 生 成 一 个 写 时 全 





T<T2<T3<T4<T; 
间 惟 为 T: 的 新 临时 版 本 。 
3) Ts 请 求 一 个 读 操作 ， 它 访问 写 时 间 Tm 
“事务 T; 产 生 的 对 象 
蕉 为 Ti 的 版 本 (小 于 Ts; 的 最 高 的 时 间 惟 ) 。 骂 国 。 ( 生 时 间 蕉 为 TI 


4) Ts 请 求 一 个 写 操作 ， 由 于 写 时 间 截 提交 版 本 临时 版 本 法 时 间 蕉 为 T,) 
为 Ti 的 版 本 的 读 时 间 戳 T; 大 于 T4， 该 写 操作 图 13-33 过 迟 的 写 操作 将 使 读 操作 失效 
被 拒绝 。( 如 果 该 操作 不 被 拒绝 ， 那 么 新 版 
本 的 写 时 间 戳 将 是 T4。 如 果 人 允许 这 个 版 本 ， 那 么 这 会 和 Ts 的 读 操 作 相 冲突 ，Ts 的 读 操 作 应 该 使 用 时 
间 惟 为 T, 的 版 本 。) 

当 一 个 事务 被 放弃 时 ， 它 创建 的 所 有 版 本 都 被 删除 。 当 事务 提交 时 ， 它 创建 的 所 有 版 本 都 被 
保留 。 但 是 为 了 控制 存储 空间 的 使 用 ， 必 须 定期 删除 旧版 本 。 尽 管 多 版 本 时 间 戳 排序 方法 会 带 来 
存储 空间 的 开销 ， 但 这 种 方法 既 可 以 使 并 发 度 有 极 大 提高 ， 又 不 会 造成 死 锁 ， 而 且 读 操作 总 能 进 
行 。 有 关 多 版 本 时 间 戳 排序 的 进一步 讨论 ， 请 参见 Bernstein 等 的 文章 [1987]。 


13.7 并 发 控制 方法 的 比较 


我 们 已 经 描述 了 3 种 不 同 的 控制 并 发 访问 共享 数据 的 方法 : 严格 的 两 阶段 加 锁 、 乐 观 方法 和 时 
间 惟 排序。 所 有 的 方法 都 会 带 来 时 间 和 空间 的 开销 ， 并 且 它 们 都 在 一 定 程度 上 限制 了 并 发 操作 的 
可 能 性 。 

时 间 惟 排序 方法 类 似 于 两 阶段 加 锁 ， 是 因为 它们 都 使 用 了 悲观 方法 ， 即 在 访问 每 个 对 象 时 都 
检测 事务 之 间 是 否 会 产生 冲突 。 一 方面 ， 时 间 戳 排序 静态 地 决定 事务 之 间 的 串 行 顺序 ， 即 在 事务 
开始 时 就 决定 它们 的 顺序 。 另 一 方面 ， 两 阶段 加 锁 动 态 地 决定 事务 之 间 的 串 行 顺序 ， 即 根据 对 象 
被 访问 的 顺序 确定 串 行 顺 序 。 对 只 读 事务 来 说 ， 时 间 惟 排序， 特别 是 多 版 本 时 间 戳 排序 ， 优 于 严 
格 的 两 阶段 加 锁 。 如 果 事务 的 绝 大 多 数 操作 是 更 新 操作 ， 那 么 两 阶段 加 锁 的 性 能 更 好 。 

一 些 研究 人 员 根 据 时 间 惟 排序 对 以 读 操作 为 主 的 事务 有 益 、 而 加 锁 对 写 操作 多 于 读 操 作 的 事务 
有 益 这 个 现象 ， 提 出 一 种 混合 方案 ， 即 某 些 事务 利用 时 间 蕉 排序 进行 并 发 控制 ， 而 另 一 些 事务 利用 
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两 阶段 加 锁 方 法 进行 并 发 控制 。 对 混合 方法 的 使 用 有 兴趣 的 读者 可 阅读 Bernstein 等 [1987] 的 文献 。 

悲观 方法 在 检测 到 对 象 访问 冲突 时 有 不 同 的 解决 策略 。 时 间 发 排序 将 立即 放弃 事务 ， 而 加 锁 
机 制 让 事务 等 待 ， 但 是 有 可 能 在 稍 后 为 避免 死 锁 而 放弃 该 事务 。 

在 使 用 乐观 并 发 控制 时 ， 所 有 的 事务 被 允许 执行 ， 但 是 其 中 的 一 些 事务 在 试图 提交 时 被 放 
弃 ， 如 果 采 用 向 前 验证 ， 那 么 会 在 更 早 的 时 候 放 弃 事 务 。 如 果 并 发 事务 之 间 的 冲突 较 少 时 ， 乐 观 
并 发 控制 具有 较 好 的 性 能 ， 但 当 事 务 被 放弃 时 ， 乐 观 并 发 控制 需要 重复 非常 多 的 工作 。 

加 锁 在 数据 库 系 统 中 已 被 使 用 多 年 ， 而 时 间 发 排序 也 已 应 用 于 SDD-1 数 据 库 系统 中 。 这 两 种 
方法 都 用 于 文件 服务 器 中 。 然 而 ， 在 分 布 式 系统 中 对 数据 访问 进行 并 发 控制 的 主流 方法 还 是 加 锁 ， 
例如 ， 前 面 提 到 的 CORBA 的 并 发 控制 服务 就 完全 基于 锁 的 使 用 。 特 别 的 ， 它 提供 层次 加 锁 ， 这 种 
方式 允许 对 层次 化 结构 数据 进行 混合 粒度 的 加 锁 。 

一 些 研究 性 的 分 布 式 系统 ， 例 如 Argus[Liskov 1988] 和 Arjuna[lShrivastava et al. 1991]， 研究 了 
语义 锁 的 使 用 、 时 间 惟 排序 和 针对 长 事务 的 新 方法 。 

研究 人 员 发 现 ， 上 述 并 发 控制 机 制 在 两 个 应 用 领域 中 是 远 远 不 够 的 。 其 中 一 个 领域 是 多 用 户 
应 用 ， 其 中 所 有 的 用 户 都 希望 看 到 对 象 不 断 被 其 他 用 户 更 新 的 公共 版 本 。 这 种 应 用 要 求 数 据 在 并 
发 更 新 和 服务 器 崩溃 时 能 够 保证 原子 性 ， 事 务 技术 似乎 提供 了 一 个 解决 方案 。 但 是 ， 这 些 应 用 有 
两 个 与 并 发 控制 有 关 的 新 需求 : (1) 用 户 要 求 在 其 他 用 户 更 新 数据 时 马上 得 到 通知 ， 这 和 隔离 性 
是 相 违 背 的 。(2) 用 户 要 求 在 其 他 用 户 完成 事务 前 就 能 访问 对 象 ， 这 引发 了 新 型 锁 的 开发 ， 这 种 
锁 用 于 在 对 象 被 访问 时 触发 动作 。 在 这 个 领域 的 工作 提出 了 不 少 放宽 隔离 性 和 提供 更 新 通知 的 方 
案 ， 这 些 工作 的 综述 请 参见 Ellis 等 [1991] 的 文献 。 另 一 个 应 用 领域 是 所 谓 的 高 级 数据 库 应 用 ， 诸 如 
协同 CAD/CAM 和 软件 开发 系统 。 在 这 些 应 用 中 ， 事 务 通常 持续 很 长 时 间 ， 用 户 针对 对 象 的 独立 版 
本 进行 工作 ， 这 些 对 象 版 本 从 一 个 公共 数据 库 中 取出 ， 在 工作 结束 时 再 放 回 。 对 象 版 本 之 间 的 合 
并 需要 用 户 之 间 的 协同 。 有 关 这 方面 工作 的 综述 可 参见 文献 [Barghouti and Kaiser 1991]。 


13.8 小 结 


面 对 事 务 的 并 发 执行 和 服务 器 崩 涡 ， 事 务 提 供 了 一 种 由 客户 指定 原子 操作 序列 的 手段 。 实 现 
原子 性 第 一 个 方面 的 含义 是 通过 运行 事务 使 得 它们 的 执行 效果 是 串 行 等 价 的 。 已 提交 事务 的 效果 
被 记录 在 持久 性 存储 中 ， 以 便 事 务 服务 能 从 进程 崩溃 中 恢复 。 为 了 在 事务 放弃 后 消除 所 有 的 效果 ， 
事务 的 执行 必须 是 严格 的 。 也 就 是 说 ， 某 个 事务 的 读 写 操作 必须 推迟 到 另 一 个 写 同一 对 象 的 事务 
提交 或 放弃 之 后 。 为 了 保证 事务 可 自行 选择 是 提交 还 是 放弃 ， 事 务 中 的 操作 是 针对 其 他 事务 不 可 
访问 的 临时 版 本 。 当 事务 提交 时 ， 对 象 的 临时 版 本 被 拷贝 到 实际 对 象 以 及 持久 性 存储 中 。 

幅 套 事务 由 若干 子 事务 组 合 形成 。 在 分 布 式 系统 中 ， 幅 套 事务 是 非常 有 用 的 ， 因 为 它 允 许 在 
不 同 服务 器 上 并 发 执行 子 事务 。 优 套 事务 还 有 一 个 好 处 是 允许 独立 恢复 部 分 事务 。 

操作 冲突 是 形成 各 种 并 发 控制 协议 的 基础 。 并 发 控制 协议 不 仅 要 确保 串 行 性 ， 并 且 要 用 严格 
执行 来 保证 恢复 处 理 ， 以 避免 与 事务 放弃 (例如 连锁 放弃 ) 有 关 的 问题 。 

在 调度 事务 的 某 个 操作 时 有 3 种 策略 : (1) 立即 执行 ，(2) 推迟 执行 ， (3) 放弃 事务 。 

严格 的 两 阶段 加 锁 使 用 了 前 两 种 策略 ， 只 有 在 死 锁 时 才 应 用 放弃 事务 。 它 根据 事务 访问 公共 
对 象 的 时 间 对 事务 进行 排序 来 保证 事务 的 串 行 化 。 它 的 主要 缺点 是 会 造成 死 锁 。 

时 间 芍 排序 利用 了 上 述 3 种 策略 ， 它 根据 事务 开始 的 时 间 来 排列 事务 对 对 象 的 访问 顺序 。 这 种 
方法 不 会 引起 死 锁 ， 并 且 对 只 读 事务 很 有 利 。 但 是 ， 到 来 较 晚 的 事务 必须 被 放弃 。 多 版 本 时 间 改 
排序 是 一 种 特别 有 效 的 方法 。 

乐观 并 发 控制 在 事务 的 执行 过 程 中 不 进行 任何 形式 的 检测 ， 直 到 事务 完成 为 止 。 事 务 在 提交 
之 前 必须 通过 验证 。 向 后 验证 需要 维护 已 提交 事务 的 多 个 写 集合 ， 而 向 前 验证 必须 验证 活动 事务 ， 
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它 的 好 处 是 允许 使 用 多 种 策略 解决 冲突 。 在 乐观 并 发 控制 其 至 在 时 间 惟 排序 中 ， 由 于 不 能 通过 验 
证 的 事务 不 断 地 放弃 ， 从 而 引起 饥饿 。 


练习 


13.1 TaskBag 是 一 个 提供 “任务 描述 ”仓库 的 服务 。 它 支持 在 几 台 计算 机 上 运行 的 客户 并 行 执行 
部 分 计算 。 一 个 主 进程 放置 TaskBag 中 一 个 计算 的 子 任务 描述 ， 工 作者 进程 从 TaskBag 中 选择 
任务 并 实现 它们 ， 然 后 将 结果 的 描述 返回 给 TaskBag。 主 进程 收集 结果 并 将 它们 组 合 起 来 ， 
产生 最 后 的 结果 。 

TaskBag 服 务 提供 下 列 操作 : 

。setTask ”人 允许 客户 向 TaskBag 中 增加 任务 描述 。 

“takeTask 人 允许 客户 从 TaskBag 中 取出 任务 描述 。 

当 一 个 任务 当前 不 可 用 ， 但 可 能 不 久 就 可 用 的 时 候 ， 客 户 发 出 takeTask 请 求 。 讨 论 下 列 方 法 
的 优 缺 点 : 

(1) 服务 器 马上 回答 ， 告 诉 客户 以 后 重 试 。 

(2) 让 服务 器 操作 (和 客户 ) 等 待 ， 直 到 任务 变 成 可 用 为 止 。 

(3) 使 用 回调 。 (第 516 页 ) 

13.2 一 个 服务 器 管理 对 象 a1, a,, … a,， 它 为 客户 提供 下 面 两 种 操作 : 

。Read(i) 返回 对 象 a 的 值 。 

。Write(i, Value) ”将 对 象 a, 的 值 设 置 为 Value。 

事务 T 和 U 定 义 如 下 : 

T: x=read{j); y=read{i) write{j, 44); write({i, 33); 

U: x=read(k); writefi, 55): y=read(j); write{k, 66). 

请 给 出 事务 T 和 U 的 3 个 串 行 化 等 价 的 交错 执行 。 (第 523 页 ) 

13.3 针对 练习 13.2 的 事务 T 和 U 的 串 行 化 等 价 交错 执行 ， 给 出 满足 下 面 特性 的 执行 ，(1) 严格 执 
行 ，(2) 虽然 不 是 严格 执行 ， 但 是 不 会 造成 连锁 放弃 ，(3) 会 引起 连锁 放弃 。 (第 527 页 ) 

13.4 操作 create 在 银行 分 行 中 插入 一 个 新 的 银行 账户 。 事 务 T 和 U 分 别 定义 如 下 ; 

T: aBranch.create( "Z"): 
U: z.deposit{ 10); z.deposit{ 20); 


假设 账户 Z 不 存在 ， 并 假设 deposit 操 作 在 账户 不 存在 时 不 做 任何 操作 。 考 虑 下 面 的 事务 T 和 U 





的 交错 执行 : 
一 -一 
T U 
aBranch.create(2Z): z.deposit(10); 


z.deposit(20); 


按 这 个 执行 顺序 ， 请 给 出 账户 Z 在 执行 后 的 余额 。 这 种 执行 是 否 与 T 和 U 的 串 行 等 价 执行 -- 
致 ? (第 523 页 ) 
13.5 练习 13.4 中 新 创建 的 账户 Z 有 时 被 称 为 假象 (phantom) 。 在 事务 U 看 来 ， 账 户 Z-- 开 始 不 存在 ， 
然后 就 像 幻影 一 样 出 现 。 请 用 一 个 例子 来 说 明 删 除 账户 时 也 会 出 现 假象 。 
13.6 “转账 ”事务 T 和 U 分 别 定义 如 下 : 
T: a.withdraw(4); b.deposit(4); 
U: c.withdraw(3); b.deposit(3); 


假设 它们 组 织 成 一 对 忽 套 事务 : 


Un 
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T,: a.withdraw(4); T,: b.deposit(4); 

Ui: c.withdraw(3); U,: b.deposit(3); 

请 比较 T,/、T,、U, 和 U, 之 间 的 串 行 等 价 交错 执行 的 数目 和 T 和 U 的 串 行 等 价 交错 执行 的 数目 。 

559 试 解释 为 什么 供 套 事务 比 非 嵌 套 事务 串 行 等 价 交错 执行 的 数目 更 多 ? (第 523 页 ) 

13.7 考虑 练习 13.6 中 做 套 事务 的 恢复 问题 。 假 设 withdraw 事 务 在 账户 透支 时 将 放弃 ， 因 而 父 事务 

也 被 放弃 。 请 给 出 满足 下 列 条 件 的 T、T:、U, 和 U: 的 串 行 等 价 执行 : (1) 这 是 一 个 严格 执 

行 ， (2) 非 严 格 执 行 。 考 虑 严格 的 执行 在 多 大 程度 上 减少 修 套 事务 的 并 发 度 ? (第 523 页 ) 
13.8 请 解释 为 什么 串 行 等 价 性 要 求 一旦 事务 释放 了 对 象 上 的 某 个 锁 ， 它 就 不 允许 再 获得 其 他 锁 ? 

一 个 服务 器 管理 对 象 a1, a,, … a,。 该 服务 器 为 客户 提供 两 种 操作 : 

*Read(i) 返回 对 象 a 的 值 。 

。Write(i, Value) 将 对 象 & 的 值 设 置 为 Value 。 

事务 T 和 U 定 义 如 下 : 

T: x=read(i); write(j, 44); 

U;: write(i, 55); write(j, 66): 

请 给 出 一 个 事务 T 和 U 的 一 个 交错 执行 ， 在 这 个 执行 中 由 于 锁 过 早 释 放 而 导致 执行 不 是 串 行 

等 价 的 。 (第 531 页 ) 
13.9 练习 13.8 中 的 事务 T 和 U 在 服务 器 上 分 别 定义 如 下 : 

7: x=read(i); write(j, 44)}: 

U: write(i, 55); write(j, 66); 

对 象 w 和 a 的 初 值 分 别 是 10 和 20， 下 面 的 执行 哪些 是 串 行 等 价 的 ?哪些 可 能 出 现在 两 阶段 加 

锁 中 ? 


T U 了 了 
read x=read(i); 
write(i, $5); write(j,44); 
write(j,44); write(i,35); 
write(j,66); write(j,66); 


U 
write(i,55); re 
write(j,66); X=read(i); 
X=read({i); write(j,66); 
write(j,44); write(j,44); 





(第 531 页 ) 
13.10 考虑 将 两 阶段 锁 的 限制 适当 放宽 ， 只 读 事务 可 以 较 早 地 释放 读 锁 。 那 么 一 个 只 读 事务 是 否 
能 达到 一 致 检索 ? 对 象 是 否 会 变 得 不 一 致 ? 请 用 练习 13.8 中 的 事务 T 和 U 来 说 明 你 的 结论 ， 
T; x=read(i); y=read{j); 
U: writelfi, $$); write(j. 66); 


其 中 对 象 a, 和 a 的 初 值 分 别 是 10 和 20。 (第 528 页 ) 


13.11 事务 的 严格 执行 要 求 某 个 事务 的 读 写 操作 必须 推迟 到 写 这 个 对 象 的 所 有 其 他 事务 提交 或 放 
弃 之 后 才能 进行 。 请 解释 图 13-16 中 的 加 锁 规则 是 如 何 保 证 严格 执行 的 。 (第 534 页 ) 


13.12 如 果 事务 完成 所 有 操作 后 但 在 提交 前 就 释放 写 锁 ， 请 描述 此 时 如 何 引 起 不 可 恢复 的 状态 。 
(第 528 页 ) 





13.13 如 果 事 务 完成 所 有 操作 后 但 在 提交 前 就 释放 读 锁 ， 请 解释 为 什么 此 时 事务 的 执行 仍 是 严格 





的 。 根 据 这 一 点 来 改进 图 13-16 中 规则 2。 (第 528 页 ) 
13.14 考虑 单个 服务 器 上 的 死 锁 检 测 机 制 ， 精 确 地 描述 何 时 将 边 加 入 等 待 图 ， 何 时 从 等 待 图 中 删 
利用 练习 13.8 中 的 服务 器 上 运行 的 事务 T、U 和 V 来 说 明 你 的 答案 : 
T U V 
Write(i, 66) 
Write(i, 55) 
write(i, 77) 


commit 





当 事 务 U 释 放 它 在 a, 上 的 写 锁 时 ，T 和 V 都 在 等 待 获取 这 个 写 锁 。 如 果 T (首先 到 达 ) 在 V 之 

前 获得 锁 ， 你 的 方案 能 否 正确 工作 ?如 果 不 能 ， 请 修改 你 的 描述 。 (第 540 页 ) 
13.15 考虑 图 13.26 中 的 层次 锁 。 如 果菜 次 会 见 被 安排 在 w 周 的 d 天 的 时 刻 :， 那 么 需要 设置 哪些 

锁 ? 应 该 按照 什么 次 序 设置 这 些 锁 ? 释放 这 些 锁 也 按照 上 述 次 序 吗 ? 

当 查 看 w 周 的 每 天 的 时 间 段 时 需要 设置 哪些 锁 ? 在 已 为 某 个 约会 设置 了 锁 的 时 候 ， 能 这 样 做 


吗 ? (第 543 页 ) 
13.16 考虑 将 乐观 并 发 控制 应 用 于 练习 13.9 中 的 事务 T 和 U 的 情况 。 如 果 T 和 U 同 时 处 于 活动 状态 ， 
试 描述 以 下 几 种 情况 的 结果 : 


1) 服务 器 首先 处 理 T 的 提交 请 求 ， 使 用 向 后 验证 方式 。 

2) 服务 器 首先 处 理 U 的 提交 请 求 ， 使 用 向 后 验证 方式 。 

3) 服务 器 首先 处 理 T 的 提交 请 求 ， 使 用 向 前 验证 方式 。 

4) 服务 器 首先 处 理 U 的 提交 请 求 ， 使 用 向 前 验证 方式 。 

对 于 上 面 的 每 种 情况 ， 描 述 事务 T 和 U 的 操作 顺序 ， 注 意 写 操作 在 验证 通过 之 后 才 真 正 起 作 

用 。 (第 545 页 ) 
13.17 考虑 事务 T 和 U 的 交错 执行 ， 
一 -一 ” 





工 U 
OpenTransaction OpenTransaction 
y = read(k); 
write(i. 55); 
write(, 66); 
commit 

Xx = read(i); 

writeQj, 44); 


OC 
在 使 用 具有 向 后 验证 的 乐观 并 发 控制 时 ， 由 于 事务 T 的 针对 a 的 读 操作 与 事务 U 的 写 操作 神 
突 ， 事 务 T 将 被 放弃 ， 尽 管 这 个 执行 是 串 行 等 价 的 。 请 改进 算法 来 处 理 这 种 情况 。 

(第 545 页 ) 

13.18 试 比较 练习 13.8 中 事务 T 和 U 分 别 在 两 阶段 加 锁 (练习 13.9) 和 乐观 并 发 控制 (练习 13.16) 
中 的 操作 执行 顺序 。 

13.19 考虑 将 时 间 蕉 排序 用 于 练习 13.9 中 事务 T 和 U 的 各 种 交错 执行 情况 。 对 象 w 和 a 的 初 值 分 别 
是 10 和 20， 初 始 的 读 写 时 间 发 都 是 bo。 假设 每 个 事务 在 开始 第 一 个 操作 之 前 就 获得 时 间 惟 ， 
例如 在 情况 as 中，T 和 U 获 得 的 时 间 戳 分别 是 和”， 并 且 m<n<e。 请 根据 时 间 顺 序 描述 T 和 U 
的 各 个 操作 的 效果 。 对 于 每 个 操作 需 描述 ， 
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13.20 


第 13 重 


1) 根据 读 规则 或 写 规则 ， 这 个 操作 是 否 允 许 执 行 。 

2) 赋 给 事务 或 者 对 象 的 时 间 戳 。 

3) 临时 对 象 的 创建 和 它们 的 值 。 

对 象 的 最 终 值 和 时 间 礁 分 别 是 什么 ? (第 549 页 ) 
对 于 下 面 的 事务 T 和 U 的 交错 执行 ， 重 新 考虑 练习 13.19 中 的 问题 。 


T U T U 


openTransaction openTransaction 


openTransaction openTransaction 

write(i, 55); write(i,55); 

write{j,60); write(j,66): 
X=read({i); commit 


write(j,44); X=read(i); 





13.21 
13.22 


13.23 
13.24 


commit write(j,44); 

(第 549 页 ) 
利用 多 版 本 时 间 惟 排序， 重新 考虑 练习 13.20。 (第 554 页 ) 
在 多 版 本 时 间 惟 排序 中 ， 读 操作 可 以 访问 对 象 的 临时 版 本 。 请 举例 说 明 ， 如 果 所 有 的 读 操 
作 都 允许 立即 执行 ， 则 有 可 能 造成 连锁 放弃 。 (第 554 页 ) 
与 普通 的 时 间 戳 排序 相 比 ， 多 版 本 时 间 惟 排序 有 哪些 优点 和 缺点 ? (第 554 页 ) 


试 比较 练习 13.8 中 事务 T 和 U 分 别 在 两 阶段 加 锁 (练习 13.9) 和 乐观 并 发 控制 (练习 13.16) 
中 的 操作 执行 次 序 。 (第 545 页 ) 





第 14 章 分 布 式 事务 


本 章 介 绍 分 布 式 事务 ， 即 涉及 多 个 服务 器 的 事务 。 分 布 式 事务 可 以 是 平面 事务 ， 也 可 以 是 蔡 
套 事务 。 

原子 提交 协议 是 参与 分 布 式 事务 的 服务 器 所 使 用 的 一 个 协作 过 程 ， 它 使 多 个 服务 器 能 够 共同 
决策 是 提交 事务 还 是 放弃 事务 。 本 章 将 描述 两 阶段 提交 协议 ， 它 是 最 常用 的 原子 提交 协议 。 

分 布 式 事务 的 并 发 控制 一 节 将 讨论 为 支持 分 布 式 事务 如 何 扩展 加 锁 、 时 间 蕉 排序 和 乐观 并 发 
控制 。 

使 用 加 锁 机 制 可 能 会 造成 分 布 式 死 锁 ， 本 章 将 讨论 分 布 式 死 锁 的 检测 算法 。 

每 个 提供 事务 的 服务 器 都 包含 一 个 恢复 管理 器 ， 它 的 作用 是 在 出 现 故障 之 后 服务 器 被 替代 时 ， 
用 它 来 恢复 服务 器 所 管理 的 对 象 上 的 事务 的 效果 。 恢 复 管理 器 将 对 象 、 意 图 列表 和 每 个 事务 的 状 
态 信 息 记 录 在 持久 性 存储 中 。 


14.1 简介 


第 13 章 讨论 了 只 访问 一 个 服务 器 中 对 象 的 平面 事务 和 做 套 事 务 。 通 常情 况 下 ， 不 管 是 平面 事 
务 还 是 伐 套 事务 ， 它 们 都 需要 访问 不 同 计算 机 上 的 对 象 。 访 问 由 多 个 服务 器 管理 的 对 象 的 平面 事 
务 或 戏 套 事务 称 为 分 布 式 事务 。 

当 … 个 分 布 式 事务 结束 时 ， 事 务 的 原子 特性 要 求 所 有 参与 该 事务 的 服务 器 必须 全 部 提交 或 全 
部 放弃 该 事务 。 为 了 实现 这 一 点 ， 其 中 一 个 服务 器 承担 了 协调 者 的 角色 ， 由 它 来 保证 在 所 有 的 服 
务 器 上 获得 同样 的 结果 。 协 调 者 的 工作 方式 取决 于 它 选用 的 协议 。“ 两 阶段 提交 协议 ”是 最 常用 的 
协议 。 该 协议 允许 服务 器 之 间 的 相互 通信 ， 以 便 就 提交 或 放弃 共同 做 出 决定 。 

分 布 式 事 务 的 并 发 控制 基于 第 13 章 中 讨论 的 方法 。 每 个 服务 器 对 自己 的 对 象 应 用 本 地 的 并 发 
控制 ， 以 保证 事务 在 本 地 是 串 行 化 的 。 分 布 式 事务 还 需要 保证 全 局 串 行 化 ， 如 何 实现 这 一 点 与 是 
否 使 用 加 锁 、 时 间 发 排序 或 乐观 并 发 控制 有 关 。 在 某 些 情 况 下 ， 事 务 在 单个 服务 器 上 是 串 行 化 的 ， 
但 同时 ， 由 于 不 同 服务 器 之 间 存 在 相互 依赖 循环 ， 因 此 可 能 出 现 分 布 式 死 锁 。 

事务 恢复 用 于 保证 事务 所 涉及 的 所 有 对 象 都 是 可 恢复 的 。 除 此 之 外 ， 它 还 保证 对 象 只 反映 已 
提交 事务 所 做 的 更 新 ， 不 反映 被 放弃 事务 所 做 的 更 新 。 


14.2 平面 分 布 式 事务 和 散 套 分 布 式 事务 


如 果 客 户 事务 调用 了 不 同 服务 器 上 的 操作 ， 那 么 它 就 成 为 一 个 分 布 式 事务 。 有 两 种 构造 分 布 
式 事务 的 方式 : 按 平面 事务 构造 和 掖 做 套 事务 构造 。 

在 平面 事务 中 ， 客 户 给 多 个 服务 器 发 送 请 求 。 例 如 ， 在 图 14-1a 中 ， 事 务 T 是 一 个 平面 事务 ， 它 
调用 了 服务 器 X、Y 和 Z 上 的 对 象 操作 。 一 个 平面 客户 事务 完成 一 个 请 求 之 后 才 发 起 下 一 个 请 求 。 因 
此 ， 每 个 事务 顺序 访问 服务 器 上 的 对 象 。 当 服务 器 使 用 加 锁 机 制 时 ， 事 务 一 次 只 能 等 待 一 个 对 象 。 

在 嵌 套 事务 中 ， 顶 层 事务 可 以 创建 子 事务 ， 子 事务 可 以 进一步 地 以 任意 深度 候 套 子 事务 。 图 
14-1b 给 出 了 一 个 客户 事务 T， 它 创建 了 两 个 子 事务 T, 和 T,， 它 们 分 别 访问 服务 器 X 和 Y 上 的 对 象 。 
子 事务 Ti 和 T? 义 创建 子 事务 Ti、Tiz、T2 和 T2， 这 4 个 子 事务 分 别 访问 服务 器 M、N 和 了 P 上 的 对 象 。 
在 做 套 事务 中 ， 同 一 层次 的 子 事务 可 并 发 执行 ， 所 以 Ti 和 T: 是 并 发 执行 的 ， 又 由 于 它们 访问 不 同 服 
务 器 上 的 对 象 ， 因 此 它们 能 并 行 运行 。 同 样 ，T、Ti2、 Tz 和 T2 也 可 以 并 发 执行 。 
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b) 做 套 事 务 
图 14-1 分 布 式 事务 


现在 考虑 这 样 一 个 分 布 式 事务 : 客户 从 A 账 户 转账 $10 到 C 账 户 ， 然 后 从 B 账 户 转账 $20 到 D 账 
户 。 账 户 A 和 B 分 别 在 服务 器 X 和 Y 上 ， 而 账 
户 C 和 D 在 服务 器 Z 上 。 如 果 将 该 事务 组 织 成 4 
个 嵌 套 事务 (如 图 14-2 所 示 ) ， 那 么 4 个 请 求 
(两 个 deposit 操 作 和 两 个 withdraw 操 作 ) 可 以 


a) 平面 事务 


a.withdraw( 10) 


T=openTransaction 


并 行 运行 ， 从 而 整体 执行 性 能 优 于 4 个 操作 被 
顺序 调用 的 简单 事务 。 


分 布 式 事务 的 协调 者 

执行 分 布 式 事务 请 求 的 服务 器 需要 相互 
通信 ， 以 确保 在 事务 提交 时 能 够 协调 它们 之 间 
的 动作 。 客 户 在 启动 一 个 事务 时 ， 向 任意 一 台 
服务 器 上 的 协调 者 发 出 一 个 openTransaction 请 


openSubTransaction 
a.withdraw( 10); 
openSubTransaction 
b.withdraw(20); 
openSubTransaction 
c.deposit( 10); 
openSubTransaction 
d.deposit(20); 
closeTransaction 


14-2 媒 套 的 银行 事务 


bwithdraw( 20) 





c.deposit(10) 
Ed.deposit(20) 


求 ， 参 见 13.2 节 的 描述 。 该 协调 者 处 理 完 openTransaction 请 求 后， 将 事务 标识 符 (TID) 返回 给 客 
户 。 分 布 式 事务 的 事务 标识 符 在 整个 分 布 式 系 统 中 必须 是 唯一 的 。 构 造 TID 的 一 种 简单 方法 是 将 
TID 分 成 两 部 分 : 创建 该 事务 的 服务 器 的 标识 符 (例如 IP 地 址 ) 和 一 个 对 该 服务 器 来 说 是 唯一 的 
数字 。 

创建 某 一 分 布 式 事务 的 协调 者 成 为 该 分 布 式 事务 的 协调 者 ， 它 在 分 布 式 事务 结束 时 负责 提交 
或 放弃 事务 。 管 理 分 布 式 事务 访问 的 对 象 的 每 个 服务 器 都 是 该 事务 的 参与 者 ， 每 个 服务 器 提供 一 
个 我 们 称 为 参与 者 的 对 象 。 每 个 事务 参与 者 负责 跟踪 所 有 参与 分 布 式 事务 的 可 恢复 对 象 。 这 些 参 
与 者 配合 协调 者 共同 执行 提交 协议 。 

在 事务 的 执行 过 程 中 ， 协 调 者 在 列表 中 记录 所 有 对 参与 者 的 引用 ， 每 一 个 参与 者 也 记录 一 个 
对 协调 者 的 引用 。 

图 13-3 给 出 的 Coordinator 接 口 提供 了 一 个 额外 的 方法 join ， 它 用 于 将 一 个 新 的 参与 者 加 入 当前 
事务 : 

join (Trans, reference to participant) 

通知 协调 者 一 个 新 的 参与 者 已 加 入 到 事务 Trans 

协调 者 将 新 的 参与 者 记录 到 参与 者 列表 中 。 事 实 上 ， 协调 者 知道 所 有 的 参与 者 ， 而 每 个 参与 
者 也 知道 协调 者 ， 这 样 在 事务 提交 时 ， 协 调 者 和 参与 者 都 能 收集 到 必要 的 信息 。 

图 14-3 显 示 了 一 个 客户 ， 它 的 (平面 ) 银行 事务 涉及 服务 器 BranchX、BranchY 和 BranchZ 上 的 
账户 A、B、C 和 D。 该 客户 事务 T 从 账户 A 转 账 $4 到 账户 C， 然 后 从 账户 B 转 账 $3 到 账户 D。 将 图 中 
左边 的 事务 T 展 开 ， 我 们 可 以 看 到 事务 T 的 openTransaction 和 closeTransaction 操 作 被 发 送 给 协调 者 ， 
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协调 者 可 以 位 于 任何 一 个 参与 事务 的 服务 器 上 。 每 个 服务 器 上 都 有 一 个 参与 者 ， 它 们 通过 调用 协 
调 者 的 join 方法 加 入 该 事务 。 当 客户 调用 事务 中 的 一 个 方法 时 ， 例 如 b.withdraw(T,3)， 接 收 该 调用 
的 对 象 (服务 器 BranchY 的 B 对 象 ) 将 通知 参与 者 对 象 自己 属于 事务 T。 如 果 在 这 之 前 没有 通知 过 
协调 者 ， 则 参与 者 对 象 调用 join 操作 来 通知 协调 者 。 在 这 个 例子 中 ， 我 们 看 到 事务 标识 符 作 为 一 个 
额外 的 参数 传递 ， 这 样 ， 接 收 者 能 将 它 传递 给 协调 者 。 在 客户 调用 closeTransaction 时 ， 协 调 者 就 
拥有 了 对 所 有 参与 者 的 引用 。 


协调 者 
C9) 






openTransaction 


closeTransaction i ; 
a.withdraw(4); 


1 b.withdraw( 3); 
T=openTransaction 

a.withdraw(4); 
c.deposit(4); 
b.withdraw(3); 
d.deposit(3); 


closeTransaction 


c.deposit(4); 
d.deposit(3); 


注意 : 协调 者 在 其 中 的 某 一 个 服务 器 上 ， 例 如 BranchX 上 。 
图 14-3 一 个 分 布 式 银行 事务 


值得 注意 的 是 ， 任何 一 个 参与 者 可 能 由 于 某 些 原因 无 法 继续 事务 而 调用 协调 者 的 
abortTransaction 方 法 。 


14.3 原子 提交 协议 


事务 的 提交 协议 最 初 于 20 世 纪 70 年 代 提出 ， 而 两 阶段 提交 协议 是 由 Gray[1978] 提 出 的 。 事 务 的 
原子 性 要 求 分 布 式 事务 结束 时 ， 它 的 所 有 操作 要 么 全 部 执行 ， 要 么 全 部 不 执行 。 就 分 布 式 事务 而 
言 ， 客 户 请 求 多 个 服务 器 上 的 操作 。 在 客户 请 求 提交 或 放弃 事务 时 ， 事 务 结束 。 以 原子 方式 完成 
事务 的 一 个 简单 方法 是 让 协调 者 不 断 地 向 所 有 参与 者 发 送 提交 或 放弃 请 求 ， 直 到 所 有 参与 者 确认 
已 执行 完 相 应 操作 。 这 是 一 个 单 阶段 原子 提交 协议 的 例子 。 

但 是 ， 这 种 简单 的 单 阶段 原子 提交 协议 是 不 够 用 的 ， 在 客户 请 求 提交 时 ， 该 协议 不 允许 任何 
服务 器 单方 面 放弃 事务 。 阻 止 服务 器 提交 它 那 部 分 事务 的 原因 通常 与 并 发 控制 问题 有 关 。 例 如 ， 
如 果 使 用 加 锁 ， 为 了 解除 死 锁 需要 将 事务 放弃 ， 客 户 有 可 能 在 发 起 新 的 请 求 之 前 并 不 知道 事务 已 
被 放弃 。 如 果 使 用 乐观 并 发 控制 ， 某 个 服务 器 的 验证 失败 将 导致 放弃 事务 。 在 分 布 式 事务 的 进行 
过 程 中 ， 协 调 者 可 能 不 知道 某 个 服务 器 已 经 崩溃 并 且 已 被 替换 一 一 而 这 个 服务 器 也 需要 放弃 事务 。 

两 阶段 提交 协议 的 设计 出 发 点 是 允许 任何 一 个 参与 者 自行 放弃 它 自己 的 那 部 分 事务 。 由 于 事 
务 原 子 性 的 要 求 ， 如 果 部 分 事务 被 放弃 ， 那 么 整个 分 布 式 事务 也 必须 被 放弃 。 在 该 协议 的 第 一 个 
阶段 ， 每 个 参与 者 投票 表决 事务 是 放弃 还 是 提交 。 一 旦 参与 者 投票 要 求 提交 事务 ， 那 么 就 不 允许 
放弃 事务 。 因 此 ， 在 一 个 参与 者 投票 要 求 提交 事务 之 前 ， 它 必须 保证 最 终 能 够 执行 提交 协议 中 它 
自己 那 一 部 分 ， 即 使 参与 者 出 现 故 障 而 被 中 途 替 换 掉 。 一 个 事务 的 参与 者 如 果 最 终 能 提交 事务 ， 
那么 可 以 说 参与 者 处 于 事务 的 准备 好 状态 。 为 了 保证 能 够 提交 ， 每 个 参与 者 必须 将 事务 中 所 有 发 
生 改 变 的 对 象 以 及 它 自 己 的 状态 (准备 好 ) 保存 到 持久 性 存储 中 。 

在 该 协议 的 第 二 个 阶段 ， 事 务 的 每 个 参与 者 执行 最 终 统一 的 决定 。 如 果 任何 一 个 参与 者 投票 
放弃 事务 ， 那 么 最 终 的 决定 将 是 放弃 事务 。 如 果 所 有 参与 者 都 投票 提交 事务 ， 那 么 最 终 的 决定 是 
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提交 事务 。 

问题 是 要 保证 每 个 参与 者 都 投票 ， 并 且 达 成 一 个 共同 的 决定 。 在 无 故障 时 ， 该 协议 相当 简单 。 
但 是 ， 协 议 必 须 在 出 现 各 种 故障 (例如 一 些 服务 器 崩溃 、 消 息 丢 失 或 服务 器 暂时 不 能 通信 ) 时 能 
够 正常 工作 。 

提交 协议 的 故障 模型 ”13.1.2 节 给 出 了 事务 的 故障 模型 ， 该 模型 同样 适用 于 两 阶段 (或 其 他 任何 ) 
提交 协议 。 提 交 协 议 的 运行 环境 是 异步 系统 ， 在 该 环境 下 服务 器 可 能 崩溃 ， 消 息 也 可 能 丢失 。 但 是 ， 
提交 协议 假设 底层 请 求 - 应 答 协议 能 去 除 受 损 和 重复 的 消息 ， 并 且 系 统 中 没有 拜占庭 故障 一 一 服务 
器 或 者 崩溃 或 者 服从 所 发 送 的 消息 。 

两 阶段 提交 协议 是 一 种 达到 共识 的 协议 。 第 12 章 断言 ， 在 异步 系统 中 ， 如 果 进 程 可 能 崩溃 ， 
那么 是 不 可 能 达到 共识 的 。 但 是 ， 两 阶段 提交 协议 确实 在 这 些 条 件 下 达成 了 共识 ， 这 是 由 于 进程 
的 崩溃 故障 被 屏 荐 了， 崩溃 的 进程 被 一 个 新 进程 所 替代 ， 新 进程 的 状态 根据 持久 性 存储 中 保存 的 
信息 和 其 他 进程 所 拥有 的 信息 来 设 定 。 


14.3.1 两 阶段 提交 协议 

在 事务 的 进行 过 程 中 ， 除 了 参与 者 在 加 入 分 布 式 事务 时 通知 协调 者 之 外 ， 协 调 者 和 参与 者 之 
间 没 有 其 他 通信 。 客 户 的 事务 提交 (或 放弃 ) 请 求 被 直接 发 送 给 协调 者 。 如 果 客 户 请 求 
abortTransaction， 或 者 事务 已 被 某 个 参与 者 放弃 ， 那 么 协调 者 可 以 立即 通知 所 有 参与 者 放弃 事务 。 
只 有 当 客户 请 求 协调 者 提交 事务 时 ， 两 阶段 提交 协议 才 开 始 使 用 。 

在 两 阶段 提交 协议 的 第 一 个 阶段 ， 协 调 者 询问 所 有 的 参与 者 是 否 准备 好 提交 ， 在 第 二 个 阶段 ， 
协调 者 通知 它们 提交 (或 放弃 ) 事务 。 如 果 某 个 参与 者 可 以 提交 它 那 部 分 事务 ， 那 么 它 将 把 所 有 
的 更 新 和 它 的 状态 记录 到 持久 存储 中 一 一 也 就 是 准备 好 提交 。-- 完 成 这 些 工作 ， 它 就 同意 提交 事 
务 。 为 实现 两 阶段 提交 协议 ， 分 布 式 事务 中 的 协调 者 和 参与 者 利用 图 14-4 总 结 的 操作 进行 通信 。 其 
中 ，canCommit、doCommit 和 doAbort 方 法 是 参与 者 接口 中 的 方法 ， 而 方法 haveCommitted 和 
getDecision 位 于 协调 者 接口 中 。 





canCommit?{trans)— Yes /No 

协调 者 用 该 操作 询问 参与 者 它 是 否 能 够 提交 事务 ， 参 与 者 将 回复 它 的 投票 结果 。 
doCommit(trans) 

协调 者 用 该 操作 告诉 参与 者 提交 它 那 部 分 事务 。 
doAbort{trans) 


协调 者 用 该 操作 告诉 参与 者 放弃 它 那 部 分 事务 。 


haveCommitted{trans, participant) 
参与 者 用 该 操作 向 协调 者 确认 它 已 经 提交 了 事务 。 

getDecision(trans) 一 Yes / No 
当 参 与 者 投 Yes 票 后 一 段 时 间 内 未 收 到 应 答 时 ， 参 与 者 用 该 操作 向 协调 者 询问 事务 的 投票 表决 结果 。 该 操 
作用 于 从 服务 器 崩溃 或 消 息 延 迟 中 核 复 。 





图 14-4 两 阶段 提交 协议 中 的 操作 


两 阶段 提交 协议 由 投票 阶段 和 完成 阶段 组 成 ， 如 图 14-5 所 示 。 在 步 难 2 结束 时 ， 协 调 者 和 所 有 
投 Yes 票 的 参与 者 都 准备 提交 。 在 步 又 3 结束 时 ， 事 务实 际 上 已 经 结束 。 在 步骤 3a 处 ， 协 调 者 和 参 
与 者 提交 事务 ， 因 此 协调 者 将 事务 提交 的 决定 通知 客户 ， 在 步骤 3b 发 生 时 ， 协 调 者 将 放弃 事务 的 
决定 通知 给 客户 。 

在 步骤 4， 所 有 的 参与 者 确认 它们 已 提交 ， 这 样 协调 者 能 知道 它 所 记录 的 事务 信息 何 时 将 不 再 
需要 。 

显然 ， 由 于 一 个 或 多 个 服务 器 崩溃 或 服务 器 之 间 的 通信 中 断 ， 协 议 可 能 出 错 。 要 处 理 可 能 的 
崩溃 ， 每 个 服务 器 需要 将 与 两 阶段 提交 协议 相关 的 信息 保存 到 持久 存储 中 。 这 些 信息 可 由 替代 贿 





省 服务 器 的 新 进程 获取 。 分 布 式 事务 的 恢复 处 理 将 在 14.6 节 讨论 。 


阶段 1 (投票 阶段 ): 

1) 协调 者 向 分 布 式 事务 的 所 有 参与 者 发 送 canCommit? 请 求 。 

2) 当 参 与 者 收 到 canCommit? 请 求 后 ， 它 将 向 协调 者 回复 它 的 投票 (Yes 或 者 No)。 在 投 Yes 票 之 前 ， 它 在 
持久 性 存储 中 保存 所 有 对 象 ， 准 备 提 交 。 如 果 投 No 票 ， 参 与 者 立即 放弃 。 

阶段 2〈 根 据 投票 结果 完成 事务 ) : 

3) 协调 者 收集 所 有 的 投票 (包括 它 自己 的 投票 )。 


(a) 如 果 不 存在 故障 并 且 所 有 的 投票 均 是 Yes 时 ， 那 么 协调 者 决定 提交 事务 并 向 所 有 参与 者 发 送 
doCommit 请 求 。 


(b) 否则 ， 协 调 者 决定 放弃 事务 ， 并 向 所 有 投 Yes 票 的 参与 者 发 送 doAbort 请 求 。 

4) 投 Yes 票 的 参与 者 等 待 协调 者 发 送 的 doCommit 或 者 doAbort 请 求 。 一 旦 参与 者 接收 到 任何 一 种 请 求 消息 ， 
它 根 据 该 请 求 放弃 或 者 提交 事务 。 如 果 请 求 是 提交 事务 ， 那 么 它 还 要 向 协调 者 发 送 一 个 haveCommitted 
来 确认 事务 已 经 提交 。 





图 14-5 两 阶段 提交 协议 


协调 者 和 参与 者 之 间 的 信息 交换 会 由 于 服务 器 崩溃 或 消息 丢失 而 失败 。 采 用 超时 可 防止 进程 
无 限 阻塞 。 当 进程 检测 到 超时 后 ， 它 必须 采取 适当 的 措施 。 考 虑 到 这 一 点 ， 协 议 在 进程 可 能 阻塞 
的 每 一 步 都 包括 了 一 个 超时 动作 。 这 些 动作 的 设计 虑 及 下 列 事实 : 在 异步 系统 中 ， 超 时 并 不 一 定 
意味 着 服务 器 出 现 故障 。 

两 阶段 提交 协议 的 超时 动作 ”在 两 阶段 协议 的 不 同 阶段 ， 协 调 者 或 参与 者 都 会 遇 到 这 种 情景 
不 能 处 理 它 的 那 部 分 协议 ， 直 到 接收 到 另 一 个 请 求 或 应 答 为 止 。 


十 协调 者 : Tss# | 
| 示 际 状态 | | 上 叉 状态 上 


haveCommitied — 交 


图 14-6 两 阶段 提交 协议 中 的 通信 


首先 考虑 这 样 的 情形 : 某 个 参与 者 投 Yes 票 并 等 待 协调 者 发 回 最 终 决定 ， 即 告诉 它 是 提交 事务 
还 是 放弃 事务 。 参 见 图 14-6 的 步骤 2。 这 样 的 参与 者 的 结果 是 不 确定 的 ， 它 在 从 协调 者 处 得 到 投票 
结果 之 前 不 能 进行 进一步 处 理 。 参 与 者 不 能 单方 面 决定 下 一 步 做 什么 ， 同 时 该 事务 使 用 的 对 象 也 
不 能 释放 以 用 于 其 他 事务 。 参 与 者 向 协调 者 发 出 getDecision 请 求 来 获取 事务 的 结果 。 当 它 收 到 应 ”|571 
答 时 ， 它 才能 进行 图 14-5 中 协议 的 步 又 4。 如 果 协 调 者 发 生 故 障 ， 那 么 参与 者 将 不 能 获得 决定 ， 直 “|572 
到 协调 者 被 替代 为 止 ， 这 可 能 导致 处 在 不 确定 状态 的 参与 者 长 时 间 地 延迟 。 

不 依靠 协调 者 获取 最 终 决 定 的 方法 是 通过 参与 者 协作 来 获得 决定 。 这 种 策略 的 优点 是 可 以 在 
协调 者 出 故障 时 使 用 。 有 关 详 细 情况 请 参考 练习 14.5 和 Bernstein et al.[1987]。 但 是 ， 即 使 使 用 协作 
协议 ， 如 果 所 有 的 参与 者 都 处 于 不 确定 状态 ， 那 么 仍然 不 能 得 到 决定 ， 直 到 协调 者 或 一 个 参与 者 
得 知 最 终结 果 为 止 。 

另 一 种 可 能 导致 参与 者 延迟 的 情况 是 ， 参 与 者 已 经 完成 了 事务 中 所 有 的 客户 请 求 ， 但 还 没有 
收 到 协调 者 发 来 的 canCommit? 消息 。 当 客户 向 协调 者 发 送 closeTransaction 时 ， 该 参与 者 只 能 ( 通 
过 锁 超时 ) 检测 到 它 是 否 长 时 间 未 收 到 任何 有 关 访 事务 的 操作 请 求 。 因 为 在 这 个 阶段 还 没有 做 出 
任何 决定 ， 所 以 参与 者 可 以 在 一 段 时 间 后 决定 单方 面 放弃 该 事务 。 

协调 者 在 等 待 参与 者 投票 时 可 能 会 被 延迟 。 由 于 它 还 未 决定 事务 的 最 终 命运 ， 因 此 在 等 待 一 段 







canCommit? 
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时 间 后 它 可 以 决定 放弃 该 事务 。 但 是 它 必须 给 所 有 发 送 了 投票 的 参与 者 发 送 doAbort 消 息 。 一 些 反 
应 较 慢 的 参与 者 此 后 仍然 可 能 投 Yes 票 ， 但 这 些 投票 将 被 忽略 ， 它 们 将 进入 前 面 描述 的 不 确定 状态 。 

两 阶段 提交 协议 的 性 能 “假设 一 切 运行 正常 ， 即 协调 者 和 参与 者 不 出 现 崩 污 ， 通 信也 正常 时 ， 
有 N 个 参与 者 的 两 阶段 提交 协议 需要 传递 N 个 canCommit? 消息 和 应 答 ， 然 后 再 有 N 个 doCommit 消 
息 。 这 样 ， 消 息 开销 与 3N 成 正比 ， 时 间 开 销 是 3 次 消息 往返 。 由 于 协议 在 没有 haveCommited 消 息 
时 仍 能 正确 运行 一 一 它们 的 作用 只 是 通知 服务 器 删除 过 时 的 协调 者 信息 ， 因 此 在 估计 协议 开销 上 ， 
不 将 haveCommited 消 息 计 算 在 内 。 

在 最 坏 的 情况 下 ， 两 阶段 提交 协议 在 执行 过 程 中 可 能 出 现任 意 多 次 服务 器 和 通信 和 故障。 尽管 
协议 不 可 能 指定 协议 完成 的 时 间 限 制 ， 但 它 能 够 处 理 连 续 故 障 (服务 器 岂 涡 或 消息 丢失 )， 并 保证 
最 终 完 成 。 

对 于 前 面 提 到 的 超时 问题 ， 两 阶段 提交 协议 可 能 造成 参与 者 很 长 时 间 停 留 在 不 确定 状态 上 。 
这 些 延 迟 主 要 源 于 协调 者 故障 或 者 不 能 从 参与 者 那里 得 到 getDecision 请 求 的 回答 。 即 使 协作 协议 
允许 参与 者 可 以 向 其 他 参与 者 发 送 getDecision 请 求 ， 但 是 当 所 有 参与 者 都 处 于 不 确定 状态 时 ， 延 
迟 仍然 不 可 避免 。 

三 阶段 提交 协议 用 来 减少 这 种 延迟 。 但 是 这 种 协议 代价 很 大 ， 在 正常 的 情况 (无 故障 情况 ) 
下 需要 更 多 的 消息 和 更 多 次 的 消息 往返 。 关 于 三 阶段 提交 协议 的 详细 情况 ， 请 参见 练习 14.2 和 
Bernstein 等 [1987] 。 


14.3.2 人 尹 套 事务 的 两 阶段 提交 协议 


一 组 伐 套 事务 的 最 外 层 事务 被 称 为 顶层 事务 ， 除 顶层 事务 之 外 的 其 他 事务 被 称 为 子 事务 。 在 
图 14-lb 中 ，T 是 顶层 事务 ，T、Tz、T、T、T2 和 T2 是 子 事务 。Ti 和 T:; 是 事务 T 的 孩子 事务 ， 即 
T 是 它们 的 父 事务 。 类 似 地 ，T,, 和 Ts 是 事务 Ti 的 孩子 事务 ，T,, 和 T,, 是 事务 T, 的 孩子 事务 。 每 个 子 
事务 在 其 父 事务 开始 后 才能 执行 ， 并 在 父 事务 结束 前 结束 。 例 如 ，Ti 和 Ti, 在 T, 开 始 后 执行 ， 在 TT 
结束 前 结束 。 

当 子 事务 执行 完毕 时 ， 它 独立 决定 是 临时 提交 还 是 放弃 。 临 时 提交 和 准备 好 提交 是 不 同 的 : 
它 只 是 一 个 本 地 决定 ， 也 不 用 备份 到 持久 存储 中 。 如 果 服 务 器 随后 崩溃 ， 那 么 该 服务 器 的 替代 者 
不 能 提交 。 在 所 有 子 事务 完成 后 ， 临 时 提交 的 事务 参与 到 一 个 两 阶段 提交 协议 中 ， 其 中 ， 临 时 提 
交 子 事务 所 在 的 服务 器 表示 要 提交 的 意图 ， 而 那些 有 放弃 祖先 的 子 事务 将 被 放弃 。 准 备 好 提交 确 
保 一 个 子 事务 能 够 提交 ， 而 临时 提交 仅 意味 着 它 正确 完成 了 ， 如 果 随 后 被 问 及 是 否 提交 ， 它 将 可 
能 同意 提交 。 

如 图 14-7 所 示 ， 子 事务 的 协调 者 提供 创建 子 事务 的 操作 ， 并 提供 操作 用 来 使 子 事务 的 协调 者 
查询 父 事务 是 已 经 提交 了 还 是 放弃 了 。 
openSubTransaction(trans) — subTrans 
创建 一 个 新 的 子 事务 ， 它 的 父 事务 是 trans， 该 操作 返回 一 个 唯一 的 子 事务 标识 符 。 
getStatus(trans) — committed, aborted, provisional 


向 协调 者 询问 事务 trans 的 当前 状态 。 返回 值 表示 下 列 情况 ， 已 提交 、 已 放弃 、 临 时 提交 。 
图 14-7 妃 套 事务 中 协调 者 的 操作 


客户 使 用 openTransaction 操 作 创建 一 个 顶层 事务 ， 从 而 启动 一 组 企 套 事务 ， openTransaction 操 
作 返 回 顶 层 事 务 的 事务 标识 符 。 客 户 调用 openSubTransaction 操 作 创建 子 事 务 ， 该 操作 的 参数 要 求 
指定 它 的 父 事 务 。 新 创建 的 子 事务 自动 加 入 父 事务 ， 并 返回 一 个 新 创建 子 事务 的 标识 符 。 

子 事务 的 标识 符 必须 是 其 父 事务 TID 的 扩展 ， 子 事务 标识 符 的 构造 方法 应 使 得 能 根据 子 事务 的 
标识 符 确定 父 事务 或 顶层 事务 的 标识 符 。 另 外 ， 所 有 子 事务 的 标识 符 必 须 是 全 局 唯一 的 。 客 户 通 
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过 在 顶层 事务 的 协调 者 上 调用 closeTransaction 或 abortTransaction 来 结束 整个 嵌 套 事务 。 

与 此 同时 ， 每 个 候 套 事务 执行 自己 的 操作 。 当 它们 结束 上 时， 管理 这 些 子 事务 的 服务 器 记录 下 
事务 临时 提交 或 放弃 的 信息 。 注 意 ， 如 果 父 事务 放弃 ， 那 么 它 的 子 事务 将 被 强制 放弃 。 

第 13 章 提 到 ， 尽 管子 事务 可 能 被 放弃 ,但 是 它 的 父 事 务 一 一 包括 顶层 事务 一 一 仍然 可 以 提交 。 
在 这 种 情况 下 ， 父 事务 将 根据 子 事务 提交 还 是 放弃 采取 不 同 的 动作 。 例 如 ， 银 行 需要 在 特定 的 某 
一 天 在 某 一 支行 上 完成 “未 结算 订单 ”事务 。 这 个 事务 包含 若干 个 幅 套 的 Transfer 子 事务 ， 每 个 
Transfer 事 务 由 嵌 亦 的 deposit 子 事务 和 withdraw 子 事务 组 成 。 我 们 假设 当 某 个 账号 透支 时 ， 
withdraw 事 务 将 被 放弃 ， 相 应 的 Transfer 事 务 也 被 放 弈 。 但 是 放弃 某 个 Transfer 子 事务 并 不 要 求 放 弈 
整个 未 结算 订单 事务 。 相 反 ， 顶 层 事 务 将 发 现 Transfer 子 事务 执行 失败 并 执行 相应 的 动作 。 

考虑 图 14-8 所 示 的 顶层 事务 T 和 它 的 子 事务 (图 14-8 基 于 图 14-lb) 。 每 个 子 事务 或 者 临时 提交 
或 者 放弃 。 例 如 ，T 临 时 提交 而 Ti 被 放弃 ， 但 是 Ts 的 命运 由 它 的 父 事务 T, 决 定 ， 且 最 终 依赖 顶层 
事务 T。 尽 管 T,, 和 T>, 都 临时 提交 了 ， 但 Ts 被 放弃 了 ， 这 意味 着 T,, 和 Ts, 也 必须 被 放弃 。 假 设 顶 层 事 
务 T 不 管 T, 被 放弃 的 事实 ， 最 终 决 定 提 交 ， 同 时 T, 不 管 Ti, 被 放弃 的 事实 ， 仍 决定 提交 。 


Tu 放弃 (在 节点 M) 


"< 
7 Ti。 临时 提交 (在 节点 N) 
AN Th， 临时 提交 (在 节点 N) 
六 往 放 弃 (在 节点 Y) 
人 


TT 临时 提交 (在 节点 P) 
图 14-8 事务 T 决 定 是 否 提交 


当 项 层 事务 完 成 后 ， 它 的 协调 者 将 执行 两 阶段 提交 协议 。 参 与 者 子 事务 不 能 完成 的 唯一 原因 
是 在 它 临时 提交 后 服务 器 出 现 崩溃 。 回 想 一 下 ， 当 每 个 子 事 务 被 创建 时 ， 它 就 加 入 到 父 事 务 中 。 
因此 ， 每 个 父 事务 的 协调 者 都 有 一 个 它 的 孩子 事务 列表 。 当 一 个 伐 套 事务 临时 提交 时 ， 它 将 自己 
的 状态 和 所 有 后 代 事 务 的 状态 报告 给 它 的 父 事务 。 当 一 个 幅 套 事务 放弃 时 ， 它 只 需 将 自己 的 放弃 
报告 给 父 事务 ， 而 不 用 报告 后 代 事务 的 任何 信息 。 最 终 ， 顶 层 事务 将 获得 供 套 事务 树 中 所 有 子 事 
务 及 其 状态 列表 ， 而 被 放弃 的 子 事务 则 不 在 这 个 列表 中 。 

图 14-8 给 出 的 例子 中 的 各 协调 者 持 有 的 信息 在 图 14-9 中 列 出 。 注 意 ，Tis 和 Ti 在 同一 个 服务 器 
N 上 运行 ， 因 此 它们 共用 一 个 协调 者 。 当 子 事务 T, 放 弃 时 ， 它 把 该 事实 报告 给 它 的 父 事 务 T， 但 不 
传递 它 的 子 事务 T,, 和 Ts 的 状态 。 如 果 事 务 的 某 个 祖先 事务 被 显 式 放弃 了 或 者 由 于 其 协调 者 崩溃 而 
被 放弃 ， 那 么 这 个 子 事务 被 称 为 缴 儿 。 在 我 们 的 例子 中 ， 子 事务 T 和 T: 都 是 孤儿 ， 因 为 它们 的 父 
事务 被 放弃 ， 从 而 设 有 将 它们 的 信息 传递 给 顶层 事务 。 但 是 ， 它 们 的 协调 者 可 以 使 用 getStatus 操 作 
来 获取 父 事务 的 状态 。 如 果菜 个 事务 被 放弃 ， 那 么 它 的 临时 提交 的 子 事务 也 必须 放弃 ， 而 不 管 顶 
层 事 务 最 终 是 否 提交 。 


事务 的 协调 者 孩子 事务 


















参与 者 临时 提交 列表 放弃 列表 








了 T,,T, yes TT, Ti 

TT Th, Ta yes Ti, Ti Ti 
T 7 72> no( 被 放弃 ) 7, 
Ts no( 被 放弃 ) Tu 


Ts( 不 包含 T),) Ti, Ti 
ao( 父 事务 被 放弃 ) TT 


图 14-9 侈 套 事 务 各 协调 者 持 有 的 信息 





un 
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顶层 事务 在 两 阶段 提交 协议 中 扮演 协调 者 的 角色 ， 参 与 者 列表 由 所 有 临时 提交 子 事务 的 协调 
者 组 成 (注意 ， 这 些 子 事务 没有 被 放弃 的 祖先 事务 )。 到 了 这 个 阶段 ， 程 序 的 逻辑 已 经 决定 了 顶层 
事务 将 试图 提交 整个 事务 ， 而 不 管 是否 有 一 些 被 放弃 的 子 事务 。 在 图 14-8 中 ， 事 务 T 的 协调 者 、 事 
务 Ti 和 T,: 是 参与 者 ， 它 们 将 投票 表决 是 否 提交 。 如 果 它 们 投票 提交 事务 ， 那 么 它们 必须 将 对 象 的 
状态 保存 到 持久 存储 中 来 准备 提交 。 这 个 状态 被 记录 在 顶层 事务 中 ， 此 后 ， 两 阶段 提交 协议 可 以 
使 用 层次 的 或 平面 的 方式 来 执行 。 ， 

两 阶段 提交 协议 的 第 二 阶段 与 非 嵌 套 的 情况 是 一 致 的 。 协 调 者 收集 所 有 的 投票 ， 然 后 将 最 终 
决定 通知 所 有 参与 者 。 协 议 结束 时 ， 协 调 者 和 参与 者 将 一 致 地 提交 或 一 致 地 放弃 整个 事务 。 

层次 化 两 阶段 提交 协议 ”在 这 种 方法 中 ， 两 阶段 提交 协议 变 成 一 个 多 层 的 修 套 协议 。 顶 层 事 
务 的 协调 者 和 作为 子 事务 的 直接 父 事 务 的 协调 者 进行 通信 。 它 向 每 一 个 子 事务 的 协调 者 发 送 
canCommit? 消 息 ， 这 些 子 事务 协调 者 收 到 消息 后 ， 又 向 各 自 的 子 事务 协调 者 发 送 该 消息 (直至 整 
个 嵌 套 事务 树 )。 每 个 参与 者 首先 收集 其 后 代 事务 的 应 答 ， 然 后 再 应 答 自 己 的 父 事务 。 在 我 们 的 例 
子 中 ，T 向 事务 T, 的 协调 者 发 送 canCommit? 消 息 ， 然 后 Ti 向 Ti 发 送 canCommit? 销 息 。 由 于 事务 T, 
被 放弃 ， 因 此 协议 没有 向 它 的 协调 者 发 送 消息 。 图 14-10 给 出 了 canCommit? 需 要 的 参数 。 其 中 ， 第 
一 个 参数 是 顶层 事务 的 TID ， 而 第 二 个 参数 是 发 起 canCommit? 调 用 的 事务 的 TID 。 每 当 参 与 者 接收 
到 调用 后 ， 将 在 它 的 事务 列表 中 查看 已 临时 提交 的 事务 或 与 第 二 个 参数 中 的 TID 相 匹配 的 子 事务 。 
例如 ， 由 于 Ti 和 T2 运 行 在 同一 个 服务 器 上 ， 因 此 T: 的 协调 者 也 是 T:, 的 协调 者 ， 但 是 如 果 服 务 器 
收 到 的 canCommit? 调 用 的 第 二 个 参数 是 Ti, 时， 只 需 处 理 Ti: 即 可 。 


canCommit? (trans, subTrans)— Yes / No 
用 来 向 某 个 子 事务 的 协调 者 询问 是 否 能 够 提交 某 个 子 事务 subTrans。 第 一 个 参数 trans 是 顶层 事务 的 标识 
符 。 参 与 者 用 Yes 票 或 者 No 票 来 回复 


图 14-10 层次 化 两 阶段 提交 协议 中 的 canCommit? 调 用 


如 果 参 与 者 找到 能 够 匹配 第 二 个 参数 的 任何 子 事务 ， 那 么 它 将 准备 对 象 并 且 回 复 Yes。 如 果 没 
有 找到 匹配 的 子 事务 ， 那 么 它 在 执行 子 事务 之 后 系统 必定 出 现 过 崩溃 ， 因 此 它 将 回复 No。 

平面 两 阶段 提交 协议 ”在 这 种 方法 中 ， 顶 层 事务 的 协调 者 向 临时 提交 列表 中 的 所 有 子 事务 的 协 
调 者 发 送 canCommit? 消 息 。 在 我 们 的 例子 中 ， 顶 层 事 务 向 T, 和 Ti, 的 协调 者 发 送 消 息 。 此 时 ， 每 个 参 
与 者 都 用 顶层 事务 的 TID 来 引用 事务 。 每 个 参与 者 都 查找 自己 的 事务 列表 ， 寻 找 能 够 匹配 那个 TID 的 
事务 或 子 事务 。 例 如 ，T,, 的 协调 者 也 是 Ti 的 协调 者 ， 因 为 它们 运行 在 同一 个 服务 器 (N) 上 。 

但 是 ， 当 服务 器 N 上 有 临时 提交 子 事 务 和 放弃 子 事务 并 存 时 ， 这 种 方法 不 能 为 协调 者 正确 处 理 
提供 足够 的 信息 。 如 果 服 务 器 N 的 协调 者 正 准 备 提交 T， 根 据 本 地 信息 ，T,s 和 T,, 都 处 于 临时 提交 状 
态 ， 那 么 两 者 均 会 提交 。 但 是 对 于 T;, 来 说 ， 由 于 其 父 事务 T, 被 放弃 ， 因 此 提交 T,, 是 不 正确 的 。 为 
了 处 理 这 种 情况 ， 平 面 两 阶段 提交 协议 中 的 canCommit? 操 作 的 第 二 个 参数 提供 了 放弃 子 事务 的 列 
表 ， 如 图 14-11 所 示 。 参 与 者 提交 顶层 事务 的 后 代 ， 除 非 这 些 后 代 有 被 放弃 的 祖先 。 当 参与 者 收 到 
canCommit? 请 求 后 ， 它 进行 下 面 的 操作 ， 

。 如果 和 参与 者 有 临时 提交 的 子 事务 ， 并 且 它 们 是 顶层 事务 trans 的 后 代 事务 时 : 

- 确保 这 些 子 事务 的 祖先 不 在 abortList 中 ， 然 后 准备 提交 (将 事务 状态 和 它 的 对 象 记录 到 持 
入 存储 中 ) 。 
- 如 果子 事务 的 祖先 在 abortList 中 ， 放 弃 这 些 子 事务 。 
- 向 协调 者 发 送 Yes。 
“如 果 参 与 者 没有 任何 顶层 事务 的 临时 提交 子 事务 , 那么 在 执行 子 事务 后 系统 一 定 曾经 崩溃 过 ， 
故 向 协调 者 发 送 No。 
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canCommit? {trans, abortList)— Yes / No 





由 协调 者 向 参与 者 调用 该 操作 ， 用 来 询问 它 是 否 能 够 提交 某 个 事务 。 参 与 者 用 Yes 票 或 者 No 票 来 回复 


图 14-11 平面 两 阶段 提交 协议 中 的 canCommit? 调 用 


两 种 方法 的 比较 ”层次 化 协议 的 优点 在 于 ， 在 任何 阶段 ， 参 与 者 只 需 查找 其 直接 父 事务 的 子 
事务 ， 而 平面 协议 要 求 提供 一 个 放弃 列表 来 去 除 那 些 祖先 已 放弃 的 子 事务 。Moss[1985] 更 喜欢 平 
面 算法 ， 因 为 平面 协议 允许 顶层 事务 的 协调 者 直接 和 所 有 的 参与 者 进行 通信 ， 而 层次 化 事务 需要 
按 婴 套 关系 来 传递 一 系列 消息 。 | 1 

超时 动作 ”与 非 风 套 事务 的 两 阶段 提交 协议 一 样 ， 嵌 套 事务 的 两 阶段 提交 协议 也 会 在 同样 3 个 
地 方 造成 协调 者 和 参与 者 延迟 。 除 此 之 外 ， 还 有 第 4 个 地 方 会 延迟 子 事务 。 考 虑 被 放弃 子 事务 的 临 
时 提交 孩子 事务 ， 它 们 没 必要 得 到 事务 提交 或 放弃 的 信息 。 在 我 们 的 例子 中 ，T,, 就 是 这 样 一 个 子 
事务 一 一 它 被 临时 提交 , 但 是 它 的 父 事 务 T, 却 被 放弃 ， 所 以 T, 没 有 成 为 参与 者 。 为 了 解决 这 个 问题 ， 
任何 未 收 到 canCommit? 消 息 的 子 事务 在 经 过 超时 时 间 后 将 进行 查询 。 图 14-7 中 的 getStatus 操 作 可 
支持 子 事务 查询 它 的 父 事务 是 否 提 交 / 放 弃 。 为 了 保证 这 些 查 询 是 可 能 的 ， 已 放弃 的 子 事务 的 协调 
者 需要 存活 一 段 时 间 。 如 果 一 个 孤儿 子 事务 不 能 联系 上 其 父 事务 ， 那 么 它 将 最 终 放 弃 。 


14.4 分 布 式 事务 的 并 发 控制 


每 个 服务 器 要 管理 很 多 对 象 ， 它 必须 保证 在 并 发 事务 访问 这 些 对 象 时 ， 这 些 对 象 仍 保持 一 至 
性 。 因 此 ， 每 个 服务 器 需要 对 自己 的 对 象 应 用 并 发 控制 机 制 。 分 布 式 事务 中 所 有 服务 器 共同 保证 
事务 以 串 行 等 价 方式 执行 。 

这 意味 着 ， 如 果 事 务 T 对 某 一 个 服务 器 上 对 象 的 冲突 访问 在 事务 U 之 前 ， 那 么 在 所 有 服务 器 上 
对 对 象 的 冲突 操作 ， 事 务 T 都 在 事务 U 之 前 。 


14.4.1 加 锁 


在 分 布 式 事务 中 ， 某 个 对 象 的 锁 总 是 本 地 特有 的 (在 同一 个 服务 器 中 )。 是 否 加 锁 是 由 本 地 锁 
管理 器 决定 的 。 本 地 锁 管 理 器 决定 是 满足 客户 对 锁 的 请 求 ， 还 是 让 发 出 请 求 的 事务 等 待 。 但 是 ， 
事务 在 所 有 服务 器 上 被 提交 或 放弃 之 前 ， 本 地 锁 管 理 器 不 能 释放 任何 锁 。 在 使 用 加 锁 机 制 的 并 发 
控制 中 ， 原 子 提交 协议 进行 时 对 象 始 终 被 锁 住 ， 其 他 事务 不 能 访问 这 些 对 象 。 如 果 事 务 在 第 一 阶 
段 就 被 放弃 ， 锁 可 以 提早 释放 。 

由 于 不 同 服务 器 上 的 锁 管 理 器 独立 设置 对 象 锁 ， 因 此 ， 对 不 同 的 事务 ， 它 们 的 加 锁 次 序 可 能 
不 一 致 。 孝 虑 下 图 中 事务 T 和 事务 U 在 服务 器 X 和 服务 器 Y 之 间 的 交错 执行 ; 


一 一 一- ~ ~ vv vv 
于 U 


Write(A) 在 服务 器 X 上 对 A 加 锁 


Write(B) 在 服务 器 Y 上 对 B 加 锁 
Read(B) 在 服务 器 Y 上 等 待 U 


Read(A) 在 服务 器 A 上 等 待 T 


事务 T 锁 住 了 服务 器 X 上 的 对 象 A， 而 事务 U 锁 住 了 服务 器 Y 上 的 对 象 B。 此 后 ， 当 T 试 图 访问 服 
务 器 Y 上 的 对 象 B 时 ， 要 等 待 U 的 锁 。 同 样 ， 事 务 U 在 访问 服务 器 X 的 对 象 A 时 也 需要 等 待 T 的 锁 。 
因此 ， 在 服务 器 X 上 ， 事 务 T 在 事务 U 之 前 ， 而 在 服务 器 Y 上 ， 事 务 U 在 事务 T 之 前 。 这 种 不 同 的 事 
务 次 序 导致 事务 之 间 的 循环 依赖 ， 从 而 引起 分 布 式 死 锁 。 有 关 分 布 式 死 锁 的 检测 和 解除 问题 在 14.5 
节 讨 论 。 一 旦 检测 出 死 锁 ， 必 须 放弃 其 中 的 某 个 事务 来 解除 死 锁 。 这 时 ， 协 调 者 将 得 到 通知 ， 并 
且 它 将 放弃 该 事务 涉及 的 所 有 参与 者 上 的 事务 。 
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14.4.2 时 间 稚 并 发 控制 

对 于 单 服务 器 事务 ， 协 调 者 在 它 开 始 运行 时 分 配 一 个 唯一 的 时 间 发 。 通 过 按 访问 对 象 的 事务 
的 时 间 蕉 次 序 提 交 对 象 的 版 本 来 保证 串 行 等 价 性 。 在 分 布 式 事务 中 ， 协 调 者 必须 保证 每 个 事务 附 
上 全 局 唯一 的 时 间 萄 。 全 局 唯一 的 时 间 截 由 事务 访问 的 第 一 个 协调 者 发 给 客户 。 若 服务 器 上 的 对 
象 执行 了 事务 中 的 一 个 操作 ， 那 么 事务 时 间 蕉 被 传送 给 该 服务 器 上 的 协调 者 。 

分 布 式 事务 中 的 所 有 服务 器 共同 保证 事务 执行 的 品行 等 价 性 。 例 如 ， 如 果 在 某 个 服务 器 上 ， 
由 事务 U 访 问 的 对 象 版 本 在 事务 T 访 问 后 提交 ， 而 在 另 一 个 服务 器 上 ， 事 务 T 和 事务 U 又 访问 了 同一 
个 对 象 ， 那 么 它们 也 必须 按 相同 次 序 提交 对 象 。 为 了 保证 所 有 服务 器 上 的 相同 次 序 ， 协 调 者 必须 
就 时 间 蕉 排序 达成 一 致 。 时 间 羽 是 一 个 二 元 组 < 本 地 时 间 惟 ， 服 务 器 id> 对 。 在 时 间 蕉 的 比较 中 ， 
首先 比较 本 地 时 间 改 ， 然 后 比较 服务 器 id。 

即使 各 服务 器 的 本 地 时 钟 不 同步 ， 也 能 保证 事务 之 间 的 相同 顺序 。 但 是 为 了 效率 的 原因 ， 各 
协调 者 之 间 的 时 间 蕉 还 是 要 求 大 致 同步 。 如 果 是 这 样 的话 ， 事 务 之 间 的 顺序 通常 与 它们 实际 开始 
的 时 间 显 序 相 一 致 。 利 用 第 11 章 中 的 本 地 物理 时 钟 同步 方法 可 以 保证 时 间 戳 的 大 致 同步 。 

当 利 用 时 间 改 机 制 进行 并 发 控制 时 ， 冲 突 在 执行 每 个 操作 的 时 候 解除 。 如 果 为 了 解决 冲突 需 
要 放弃 某 个 事务 时 ， 相 应 的 协调 者 将 得 到 通知 ， 并 且 它 将 在 所 有 的 参与 者 上 放弃 该 事务 。 这 样 ， 
如 果 事 务 能 够 坚持 到 客户 发 起 提交 请 求 命令 时 ， 这 个 事务 总 能 提交 。 因 此 在 两 阶段 提交 协议 中 ， 
正常 情况 下 参与 者 同意 提交 。 参 与 者 不 同意 提交 的 唯一 情形 是 参与 者 在 事务 执行 过 程 中 崩溃 过 。 
14.4.3 乐观 并 发 控制 

在 乐观 并 发 控制 中 ， 每 个 事务 在 提交 之 前 必须 首先 进行 验证 。 事 务 在 验证 开始 时 首先 要 附加 
一 个 事务 号 ， 事 务 的 串 行 化 是 根据 这 些 事务 号 的 顺序 实现 的 。 分 布 式 事务 的 验证 由 一 组 独立 的 服 
务 器 共同 完成 ， 每 个 服务 器 验证 访问 自己 对 象 的 事务 。 这 些 验 证 在 两 阶段 提交 协议 的 第 一 个 阶段 
进行 。 

考虑 两 个 事务 T 和 U 的 交错 执行 ， 它 们 分 别 访问 服务 器 X 和 Y 上 的 对 象 A 和 B， 


一 ee 





T U 
Read(A) 在 服务 器 X 上 Read(B) 在 服务 器 Y 上 
Write(A) Write(B) 
Read(B) 在 服务 器 Y 上 Read(A) 在 服务 器 X 上 
Write(B) Write(A) 


和， 

在 服务 器 X 上 ， 事 务 T 在 事务 U 之 前 访问 对 象 ， 在 服务 器 Y 上 ， 事 务 U 在 事务 T 之 前 访问 对 象 。 
如 果 现 在 事务 T 和 U 同 时 开始 验证 过 程 ， 但 服务 器 X 首 先 验证 T， 而 服务 器 Y 首 先 验证 U。 在 13.5 节 
介绍 的 简化 的 验证 协议 中 ， 要 求 一 次 只 能 有 一 个 事务 执行 验证 和 更 新 阶段 。 这 样 ， 服 务 器 在 一 个 
事务 完成 验证 前 不 能 验证 其 他 事务 ， 从 而 造成 提交 死 锁 。 

13.5 节 中 介绍 的 验证 协议 假设 验证 过 程 很 快 ， 这 在 单 服务 器 事务 的 情况 下 是 成 立 的 。 但 在 分 布 
式 事务 中 ， 由 于 两 阶段 提交 协议 需要 一 定 的 时 间 ， 因 此 在 获得 一 致 提交 决定 之 前 ， 可 能 推迟 其 他 事 
务 进入 验证 过 程 。 在 分 布 式 乐 观 并 发 控制 中 ， 每 个 服务 器 使 用 并 行 验证 协议 。 这 是 对 向 前 及 向 后 验 
证 的 扩展 ， 允 许多 个 事务 同时 进入 验证 阶段 。 在 这 种 扩展 验证 中 ， 向 后 验证 除了 检查 规则 2， 还 必 
须 检查 规则 3。 也 就 是 说 ， 正 在 被 验证 事务 的 写 集合 必须 和 较 早 启动 的 与 被 验证 事务 重 登 的 事务 的 
写 集合 进行 检查 ， 看 两 者 是 否 重 僵 。Kung 和 Robinson[1981] 在 他 们 的 论文 中 叙述 了 并 行 验 证 过 程 。 

如 果 使 用 了 并 行 验证 ， 事 务 就 不 会 在 提交 过 程 中 出 现 死 锁 。 然 而 ， 如 果 服 务 器 只 是 进行 独立 
验证 ， 同 一 个 分 布 式 事务 的 不 同 服务 器 可 能 按 不 同 的 次 序 来 串 行 化 同一 组 事务 ， 例 如 ， 在 服务 器 X 
上 先 执行 T 再 执行 U， 在 服务 器 Y 上 先 执行 U 再 执行 T。 
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分 布 式 事务 的 服务 器 必须 防止 这 种 情况 发 生 。 一 个 解决 方案 是 在 每 个 服务 器 完成 本 地 验证 后 ， 
再 执行 一 个 全 局 验证 [Ceri and Owicki 1982]。 全 局 验证 用 来 检查 每 个 服务 器 上 的 事务 执行 次 序 是 否 
满足 串 行 化 要 求 ， 换 言 之 ， 这 些 事务 不 会 形成 环 路 。 

另 一 种 方案 是 让 分 布 式 事务 的 所 有 服务 器 在 验证 开始 时 使 用 相同 的 全 局 唯一 的 事务 号 
[Schlageter 1982]。 两 阶段 提交 协议 的 协调 者 负责 生成 全 局 唯一 的 事务 号 ， 并 将 此 事务 号 通过 
canCommit? 消 息 传 给 参与 者 。 由 于 不 同 的 服务 器 会 协调 不 同 的 事务 ， 这 些 服务 器 必须 像 在 分 布 式 
时 间 惟 排序 协议 中 一 样 ， 对 生成 的 事务 号 有 个 统一 的 排序 。 

Agrawal 等 人 [1987] 提 出 了 Kung 和 Robinson 算 法 的 一 个 变种 ， 这 个 变种 对 只 读 事务 进行 了 优化 ， 
并 且 结 合 了 称 为 MVGYVY (多 版 本 通用 验证 ) 的 算法 。MVGYVY 是 一 种 并 行 验证 ， 它 确保 事务 号 反映 
了 串 行 化 次 序 ， 但 是 它 要 求 延迟 某 些 事务 在 提交 之 后 的 可 见 性 。MVGV 还 克 许 事务 号 改变 ， 以 使 
更 多 的 可 能 失败 的 事务 执行 验证 。Agrawal 等 人 的 论文 还 提出 了 一 种 用 于 提交 分 布 事务 的 算法 。 它 
与 Schlageter 的 方案 类 似 ， 同 样 需要 全 局 唯一 的 事务 号 。 在 读 阶段 结束 时 ， 协 调 者 发 布 一 个 全 局 事 
务 号 ， 每 个 参与 者 试图 用 这 个 事务 号 来 验证 它们 的 本 地 事务 。 但 是 ， 如 果 发 布 的 全 局 事务 号 太 小 ， 
某 些 参与 者 不 能 验证 自己 的 事务 ， 那 么 它 会 通知 协调 者 要 求 增 大 事务 号 。 如 果 没 有 找到 合适 的 事 
务 号 ， 那 么 参与 者 只 能 放弃 事务 。 最 终 ， 如 果 所 有 的 参与 者 能 够 验证 它们 的 事务 ， 那 么 协调 者 将 
收 到 每 个 参与 者 发 来 的 事务 号 ， 如 果 这 些 事务 号 相同 ， 那 么 事务 就 能 提交 。 


14.5 分 布 式 死 锁 


在 13.4 节 中 有 关 死 锁 问 题 的 讨论 表明 ， 单 服务 器 在 使 用 加 锁 机 制 进行 并 发 控制 时 可 能 出 现 死 
锁 。 服 务 器 要 么 防止 死 锁 发 生 ， 要 么 检测 并 解除 死 锁 。 采 用 超时 的 方法 来 解除 死 锁 是 一 种 麻烦 的 
方法 一 一 因为 设 定 合适 的 超时 间隔 很 困难 ， 它 会 导致 事务 不 必要 地 放弃 。 利 用 死 锁 检测 方法 ， 只 
有 死 锁 中 的 事务 才 被 放弃 。 大 多 数 死 锁 检测 方法 都 是 通过 在 事务 等 待 图 中 寻找 环 路 而 实现 的 。 在 
包含 多 个 事务 访问 多 个 服务 器 的 分 布 式 系统 中 ， 全 局 等 待 图 在 理论 上 可 以 通过 局 部 等 待 图 构造 出 
来 。 全 局 等 待 图 中 的 环 路 在 局 部 等 待 图 中 可 能 不 存在 ， 也 就 是 说 ， 可 能 出 现 分 布 式 死 锁 。 等 待 图 
是 有 向 图 ， 其 节点 表示 事务 和 对 象 ， 边 表示 事务 拥有 某 个 对 象 或 者 事务 正在 等 待 对 象 。 死 锁 出 现 
的 充 要 条 件 是 等 待 图 中 存在 一 个 环 路 。 

图 14-12 表 示 3 个 事务 U、V 和 W 的 交错 执行 ， 它 涉及 服务 器 X 上 的 对 象 A 和 服务 器 Y 上 的 对 象 B， 
以 及 服务 器 Z 上 的 对 象 C 和 D。 

图 14-13a 的 等 待 图 表明 一 个 死 锁 环 路 由 不 同 的 边 组 成 ， 这 些 边 分 别 代表 某 个 事务 等 待 某 个 对 象 
以 及 某 一 对 象 被 某 个 事务 持 有 。 由 于 任何 事务 一 次 只 能 等 待 一 个 对 象 ， 因 此 可 以 在 死 锁 环 路 中 删 
除 对 象 节点 ， 从 而 将 等 待 图 简化 为 14-13b。 












d.deposit( 10) 





锁 住 D 
b.deposit{ 10) 在 节点 Y 


a.deposit(20) 在 节点 X 锁 住 8 
锁 住 4 
c.deposit(30) 在 节点 Z 
b.withdraw(30) 在 节点 Y 锁 住 C 
等 待 cwithdraw{20) ”在 节点 Z 


等 待 
a.withdraw({20) 在 X 处 等 待 


图 14-12 事务 U、V 和 W 的 交错 执行 
分 布 式 死 锁 的 检测 要 求 在 分 布 于 多 个 服务 器 上 的 全 局 等 待 图 中 寻找 环 路 。 第 13 章 提 到 局 部 等 
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待 图 可 以 由 每 一 个 服务 器 上 的 锁 管 理 器 构造 。 在 上 面 的 例子 中 ， 各 服务 器 的 局 部 等 待 图 为 : 

服务 器 Y: U 一 V (在 U 请 求 b.withdraw(30) 时 出 现 ) 

服务 器 Z: V 一 W (在 V 请 求 c.withdraw(20) 时 出 现 ) 

服务 器 X: W 一 U (在 W 请 求 a:withdraw(20) 时 出 现 ) 

每 个 服务 器 都 构造 出 全 局 等 待 图 的 一 部 分 ,1 因此 ， 各 服务 器 之 间 通 过 通信 才能 发 现 图 中 的 环 路 。 

一 种 简单 的 解决 方案 是 使 用 集中 式 死 锁 检 测 ， 其 中 的 一 个 服务 器 担任 全 局 死 锁 检测 器 。 全 局 
死 锁 检测 器 通过 收集 各 服务 器 发 送 的 最 新 的 局 部 等 待 图 的 拷贝 来 构造 全 局 等 待 图 。 全 局 死 锁 检测 
器 在 全 局 等 待 图 中 检查 环 路 。 一 旦 发 现 环 路 ,; 就 要 决定 如 何 解除 死 锁 ， 并 通知 各 服务 器 通过 放弃 
相应 事务 来 解除 死 锁 。 
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图 14-13 分 布 式 死 锁 


集中 式 死 锁 检测 并 不 是 一 个 非常 好 的 方法 ， 最 主要 的 问题 是 它 依赖 单一 的 服务 器 来 执行 检测 。 
因此 它 和 分 布 式 系统 中 其 他 集中 式 解 决 方案 一 样 ， 可 用 性 较 差 ， 缺 乏 容错 ， 没 有 可 伸缩 性 。 而 且 ， 
频繁 地 传输 局 部 等 待 图 代价 很 大 。 如 果 不 频繁 地 收集 全 局 等 待 图 ， 那 么 可 能 需要 更 长 的 时 间 才 能 
检测 出 死 锁 。 

假死 锁 如果 “检测 出 ”的 死 锁 并 非 真 正 的 死 锁 ， 那 么 这 个 死 锁 被 称 为 “假死 锁 ”。 在 分 布 式 
死 锁 检测 中 ， 等 待 关系 的 信息 在 服务 器 之 间 传 递 。 如 果 确 实 存在 死 锁 ， 那 么 最 终 有 一 个 节点 有 足 
够 的 信息 来 发 现 环 路 。 但 是 由 于 收集 过 程 需要 一 定 的 时 间 ， 在 这 段 时 间 内 ， 可 能 有 的 事务 已 经 放 
弃 了 某 些 锁 ， 这 种 情况 下 死 锁 就 不 存在 了 。 
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局 部 等 待 图 局 部 等 待 图 全 局 死 锁 检测 器 


14-14 局 部 等 待 图 和 全 局 等 待 图 


考虑 图 14-14 中 的 情景 ， 一 个 全 局 死 锁 检测 器 收 到 来 自 服务 器 X 和 Y 的 局 部 等 竺 图。 假设 此 时 事 
务 U 释 放 了 服务 器 X 上 的 对 象 ， 并 且 请 求 服务 器 Y 上 被 事务 V 拥 有 的 对 象 。 而 且 ， 假 设 全 局 检测 器 
先 收 到 服务 器 Y 的 等 待 图 ， 再 收 到 服务 器 X 的 等 待 图 。 此 时 ， 尽 管 T 一 U 并 不 存在 ， 但 仍然 检测 出 环 
路 T 一 U 一 V 一 T， 这 就 是 一 个 假死 锁 。 

细心 的 读者 可 能 意识 到 在 采用 两 阶段 加 锁 的 情况 下 ， 事 务 不 能 在 释放 对 象 后 获取 新 的 对 象 ， 
因此 假死 锁 也 就 不 会 出 现 。 现 在 来 考虑 检测 到 环 路 T 一 U 一 V 一 T 之 后 ， 要 么 表明 这 是 一 个 死 锁 ， 要 
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么 表明 T、U 和 W 最 终 都 会 提交 。 但 实际 上 ， 它 们 中 的 任何 一 个 都 不 能 提交 ， 因 为 它们 彼此 相互 等 
待 永远 不 会 释放 的 对 象 。 

如 果 在 死 锁 检 而 过 程 中 等 待 死 锁 环 路 中 的 基 个 事务 被 放弃 ， 那 么 也 有 可 能 检测 出 假死 锁 。 例 
如 ， 如 果 有 一 个 环 路 T 一 U 一 V 一 T， 但 在 收集 到 U 的 信息 后 ， 事 务 U 被 放弃 ， 由 于 环 路 被 打 断 ， 也 
就 没有 死 锁 。 

边 追逐 方法 “ 另 一 种 分 布 式 死 锁 检 测 方 法 称 为 边 追 逐 方法 或 路 径 推 方法 。 在 这 种 方法 中 ， 不 
需要 构造 全 局 等 待 图 ， 但 是 每 个 服务 器 都 有 很 多 关于 边 的 信息 。 服 务 器 通过 转发 probe ( 探 询 ) 消 
息 来 发 现 环 路 ， 这 些 探 询 消息 沿 着 分 布 式 系统 的 图 的 边 发 送 。 一 个 探 询 消息 包含 全 局 等 待 图 中 表 
示 路 径 的 一 个 事务 等 待 关 系 。 

问题 是 : 服务 器 何 时 发 送 探 询 消息 ? 考虑 图 14-13 中 服务 器 X 的 情形 。 此 时 该 服务 器 刚刚 在 它 
的 局 部 等 待 图 中 加 上 边 W 一 U， 与 此 同时 ， 事 务 U 正 在 等 待 访问 对 象 B， 而 服务 器 Y 上 的 对 象 B 正 被 
事务 V 使 用 。 这 条 边 可 能 是 环 路 V 一 Ti 一 T, 一 … 一 W 一 U 一 V 的 一 部 分 ， 它 涉及 使 用 其 他 服务 器 上 
对 象 的 事务 。 这 意味 着 可 能 存在 分 布 式 死 锁 环 路 ， 可 以 通过 向 服务 器 Y 发 送 探 询 消 息 找到 这 个 死 
锁 环 路 。 

现在 来 考虑 当 服 务 器 Z 将 边 V 一 W 加 入 它 的 局 部 等 待 图 之 前 的 情景 ， 此 时 ，W 并 不 在 等 待 。 因 
此 不 需要 发 送 探 询 消息 。 

每 个 分 布 式 事务 在 某 个 服务 器 (被 称 为 事务 的 协调 者 ) 上 启动 ， 并 在 若干 个 服务 器 (事务 的 
参与 者 ) 之 间 移动 ， 每 个 参与 者 和 协调 者 通信 。 在 任何 时 刻 ， 事 务 或 者 是 活动 的 ， 或 者 在 其 个 服 
务 器 上 等 待 。 协 调 者 负责 记录 事务 是 活动 的 还 是 正在 等 待 某 个 对 象 ， 并 且 参 与 者 可 以 从 它们 的 协 
调 者 那里 获取 这 些 信息 。 锁 管理 器 在 事务 开始 等 待 对 象 时 通知 协调 者 ， 同 样 在 事务 获取 对 象 而 又 
成 为 活动 事务 时 也 通知 协调 者 。 当 事务 被 放弃 而 打破 死 锁 时 ， 它 的 协调 者 将 通知 所 有 的 参与 者 ， 
所 有 的 相关 锁 将 被 释放 ， 该 事务 的 所 有 边 也 从 局 部 等 待 图 中 删除 。 

边 追 逐 算法 由 下 面 3 步 组 成 一 -开始 阶段 、 死 锁 检 测 和 死 锁 解除 。 

开始 阶段 ; 当 服 务 器 发 现 某 个 事务 T 开 始 等 待 事务 U， 而 U 正 在 等 待 另 一 个 服务 器 上 的 对 象 时 ， 
该 服务 器 将 发 送 一 个 包含 <T 一 U> 的 探 询 消息 来 启动 一 次 检测 过 程 ， 这 个 消息 将 发 送 到 阻塞 U 的 服 
务 器 。 有 时 U 和 其 他 事务 共享 锁 ， 那 么 探 询 消息 将 被 发 送 到 这 些 锁 的 拥有 者 。 有 有 时， 有些 事 务 可 能 
会 在 稍 后 共享 该 锁 ， 这 时 ， 探 询 消息 也 将 发 送 给 这 些 事务 。 

死 锁 检测 : 死 锁 检测 过 程 包含 接收 探 询 消息 并 确定 是 否 有 死 锁 产生 ， 以 及 是 否 需要 转发 探 询 
消息 三 个 步骤 。 

例如 ， 当 对 象 所 在 的 服务 器 接收 到 探 询 消息 <T 一 U> (表示 T 正 在 等 待 拥有 本 地 对 象 的 事务 U) 
时 ， 它 检查 U 是 否 也 在 等 待 。 如 果 U 也 在 等 待 另 一 个 事务 (例如 V)， 那 么 V 就 添加 到 探 询 消息 中 
(成 为 <T 一 U 一 Y>)， 如 果 V 也 在 等 待 另 外 的 对 象 ， 那 么 继续 转发 探 询 消息 。 

就 这 样 ， 全 局 等 待 图 上 的 路 径 被 逐一 构造 出 来 。 在 转发 探 询 消息 之 前 ， 服务 器 将 检测 当 事 务 
(以 T 为 例 ) 加 入 到 等 待 序列 后 是 否 会 使 探 询 消息 产生 环 路 (例如 <T 一 U 一 V 一 T>)。 如 果 图 中 产生 
环 路 ， 那 么 就 检测 出 死 锁 。 

死 锁 解 除 ， 当 检测 出 环 路 后 ， 环 路 中 的 某 个 事务 将 被 放弃 以 打破 死 锁 。 

在 我 们 的 例子 中 ， 下 面 的 步骤 描述 了 在 相应 的 检测 阶段 ， 如 何 开始 死 锁 的 检测 过 程 ， 以 及 探 
询 消 息 的 转发 过 程 。 

"服务 器 X 发 起 死 锁 检测 过 程 ， 向 对 象 B 的 服务 器 Y 发 送 探 询 消息 <W 一 U>， 

"服务 器 Y 收 到 探 询 消 息 <W 一 U> 后 ， 发 现 对 象 B 被 事务 V 拥 有 ， 因 此 将 V 附 加 在 探 询 消 息 上 ， 

产生 <W 一 U 一 V>。 由 于 V 在 服务 器 Z 上 等 待 对 象 C， 因 此 该 探 询 消息 被 转发 到 服务 器 Z， 

* 服务 器 Z 收 到 探 询 消息 <W 一 U 一 V>， 并 且 发 现 C 被 事务 W 拥 有 ， 那 么 将 W 附 加 在 探 询 消息 后 

形成 <W 一 U 一 V 一 W>。 
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这 个 路 径 上 包含 一 个 环 路 ， 服 务 器 会 检测 出 一 个 死 锁 。 必 须 放 弃 环 路 中 的 某 个 事务 来 解除 死 
锁 。 可 根据 事务 优先 级 来 选择 被 放弃 的 事务 。 


VW 一 LU 一 V 一 内 
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图 14-15 传递 探 询 消息 来 检测 死 锁 


14-15 表 示 了 从 对 象 A 的 服务 器 发 出 探 询 消息 并 最 终 在 对 象 C 的 服务 器 上 检测 出 死 锁 的 过 程 。 
其 中 探 询 消息 用 粗 第 头 表 示 ， 对 象 用 圆圈 表示 ， 事 务 协调 者 用 和 矩形 表示 。 每 个 探 询 消 息 直 接连 接 
两 个 对 象 。 在 实现 中 ， 在 服务 器 发 送 探 询 消息 到 另 一 个 服务 器 之 前 ， 它 首先 将 询问 路 径 上 最 后 一 
个 事务 的 协调 者 ， 来 确定 该 事务 是 否 在 等 待 其 他 对 象 。 例 如 ， 在 对 象 B 的 服务 器 发 送 探 询 消 息 <W 
一 U 一 V> 之 前 ， 它 询问 V 的 协调 者 来 确定 V 正 在 等 待 对 象 C。 在 绝 大 多 数 边 追 逐 算 法 中 ， 对 象 所 在 
的 服务 器 通常 向 事务 协调 者 发 送 探 询 消息 ， 事 务 协调 者 再 将 消息 转发 到 事务 等 待 的 对 象 所 在 的 服 
务 器 。 在 我 们 的 例子 中 ， 对 象 B 的 服务 器 发 送 探 询 消息 <W 一 U 一 V> 到 V 的 协调 者 ， 然 后 V 的 协调 者 
再 将 其 转发 到 C 的 服务 器 。 这 表明 ， 转 发 一 个 探 询 消息 需要 发 送 两 个 消息 。 

假设 等 待 的 事务 没有 放弃 ， 并 且 不 会 丢失 消息 ， 服 务 器 也 不 会 月 涡 ， 那 么 上 面 的 算法 能 够 找 
到 出 现 的 死 锁 。 为 了 理解 这 一 点 ， 考 虑 一 个 死 锁 环 路 ， 其 中 最 后 的 事务 W 开 始 等 待 并 且 闭 合 该 环 
路 。 当 W 开 始 等 待 某 个 对 象 时 ， 服 务 器 发 出 一 个 探 询 消 息 给 W 正 在 等 待 的 对 象 的 服务 器 。 探 询 消 息 
的 接收 者 扩展 这 个 消息 并 将 这 个 消息 转发 到 它们 发 现 的 所 有 等 待 事务 请 求 的 对 象 所 在 的 服务 器 。 
因此 所 有 W 直 接 或 者 间接 等 待 的 事务 将 最 终 加 到 探 询 消息 中 ， 除 非 检 测 出 死 锁 。 当 死 锁 出 现 后 ，W 
就 间接 地 在 等 待 自 己 。 这 样 ， 探 询 消息 将 返回 到 W 拥 有 的 对 象 。 

看 起 来 ， 为 了 检测 出 死 锁 ， 需 要 发 送 大 量 的 消息 。 在 上 面 的 例子 中 ， 我 们 看 到 ， 为 了 检测 出 3 
个 事务 的 死 锁 需要 发 送 两 个 探 询 消息 ， 而 每 个 探 询 消息 通常 需要 两 个 消息 (从 对 象 发 送 到 协调 者 ， 
再 由 协调 者 发 送 到 对 象 ) 。 

如 果 一 个 死 锁 涉 及 N 个 事务 ， 那 么 检测 该 死 锁 的 探 询 消 息 需 要 被 (N-1) 个 事务 协调 者 转发 ， 
并 且 经 过 (CN-1) 个 对 象 的 服务 器 ， 因 此 最 终 需要 2 (N-1) 个 消息 。 幸 运 的 是 ， 绝 大 多 数 死 锁 只 
涉及 两 个 事务 ， 因 此 不 用 考虑 过 量 的 消息 。 这 个 结论 来 源 于 数据 库 领 域 的 研究 。 它 也 可 扩展 到 考 
虑 对 象 冲 突 访问 的 概率 问题 上 ， 参 见 [Bernstein et al. 1987]。 

事务 优先 级 ”在 上 面 的 算法 中 ， 死 锁 涉及 的 每 个 事务 都 可 能 发 起 死 锁 检测 。 环 路 上 的 多 个 事 
务 同时 发 起 死 锁 检测 会 造成 死 锁 检测 在 多 个 服务 器 上 被 执行 ， 会 使 得 多 个 事务 被 放弃 。 

在 图 14-16a 中 ， 考 虑 事务 T、U、V 和 W， 事 务 U 正 在 等 待 事务 W，V 正 在 等 待 T。 几 平 在 同一 
时 刻 ，T 请 求 U 拥 有 的 对 象 ，W 请 求 V 拥 有 的 对 象 。 两 个 独立 的 探 询 消息 <T 一 U> 和 <W 一 V> 由 这 些 
对 象 的 服务 器 同时 发 起 和 转发 ， 最 终 由 两 个 不 同 的 服务 器 检测 出 死 锁 。 在 图 14-16b 中 ， 等 待 环 路 
是 <T 一 U 一 W 一 V 一 T>。 在 图 14-16c 中 ， 等 待 环 路 是 <W 一 V 一 T 一 U 一 W>。 

为 了 保证 环 路 中 只 有 一 个 事务 被 放弃 ， 应 给 每 个 事务 都 附加 一 个 优先 级 ， 这 样 事务 之 间 就 建 
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立 了 一 个 全 序 关 系 。 例 如 ， 时 间 惟 就 可 以 作为 事务 的 优先 级 。 当 检测 出 死 锁 环 路 后 ， 具 有 最 低 优 
先 级 的 事务 被 放弃 。 这 样 尽管 若干 个 不 同 的 服务 器 同时 检测 出 死 锁 环 路 ， 它 们 仍然 可 以 就 放弃 哪 
一 个 事务 达成 一 致 的 决定 。 我 们 用 T>U 表 示 T 的 优先 级 高 于 U。 在 上 面 的 例子 中 ， 假 设 T>U>V>W， 
那么 不 管 检测 到 环 路 <T 一 U 一 W 一 V 一 T> 还 是 环 路 <W 一 V 一 T 一 U 一 W>， 事 务 W 都 将 被 放弃 。 


等 待 。q 等 待 _w 本 .TU 
1 Se pda 
: 已 Mr W—V—T—U 
只 : 4 | 
ca TU-W 了 
馆 4 一 等 待 T 一 0 一 一 VY We 
oe 廓 4 一 等 待 
a) 初始 状态 b) 在 由 7 请 求 的 对 象 上 “5c) 在 由 Wi 请 求 的 对 象 上 
发 起 的 检测 结果 发 起 的 检测 结果 


图 14-16 同时 发 起 两 个 探 询 消息 


如 果 要 求 死 锁 检测 只 有 在 高 优先 级 的 事务 等 待 低 优先 级 事务 时 才能 发 起 ， 那 么 事务 优先 级 也 
可 以 用 来 减少 发 起 死 锁 检测 的 次 数 。 在 图 14-16 的 例子 中 ， 由 于 T>U， 因 此 发 生 探 询 消息 <T 一 U>， 
而 由 于 W<V， 因 此 不 能 发 出 探 询 消息 <W 一 V>。 如 果 我 们 假设 事务 开始 等 待 男 一 个 事务 时 ， 等 待 
事务 的 优先 级 比 被 等 待 事务 的 优先 级 高 或 低 的 概率 相同 ， 那 么 利用 上 面 的 死 锁 检测 发 起 规则 ， 可 
以 减少 一 半 探 询 消息 。 

事务 优先 级 还 可 以 用 来 减少 探 询 消 息 转 发 的 次 数 。 一 般 的 想法 是 探 询 消息 只 能 “向 下 ”传递 ， 
即 从 高 优先 级 的 事务 到 低 优先 级 的 事务 。 为 了 达到 这 一 目的 ， 服 务 器 不 会 将 探 询 消息 转发 到 比 发 
起 者 优先 级 还 高 的 事务 。 这 是 由 于 如 果 目 标 事务 正在 等 待 另 一 个 事务 ， 那 么 它 在 开始 等 待 时 一 定 
已 经 通过 发 送 探 询 消息 而 发 起 了 死 锁 检测 。 


W 






探 询 


oH 消息 队列 


UvU-V 下 
等 待 C 


探 询 消息 队列 wn 等 待 B , ee 


a) 在 U 开 始 等 待 时 V 存 储 探 询 消息 b) V 开 始 等 待 时 探 询 消息 被 转发 
图 14-17 探 询 消息 向 下 传递 


然而 ， 这 种 明显 的 改进 存在 一 个 缺陷 。 在 图 14-15 的 例子 中 ， 当 事务 W 开 始 等 待 U 时 ， 事 务 U 正 
在 等 待 事务 Vv， 事 务 V 正 在 等 待 W。 如 果 不 使 用 优先 级 规则 ， 在 W 开 始 等 待 时 发 起 死 锁 检测 ， 探 询 
消息 为 <W 一 U>， 如 果 使 用 优先 级 规则 ， 因 为 W<U， 所 以 不 发 出 探 询 消息 ， 死 锁 就 不 能 检测 出 来 。 

这 里 的 问题 是 由 事务 开始 等 待 的 次 序 决定 死 锁 是 否 被 检测 出 来 。 为 避免 上 面 的 缺陷 ， 协 调 者 
可 以 将 所 有 收 到 的 代表 每 一 事务 的 探 询 消息 存储 在 探 询 队列 中 。 当 事务 开始 等 待 一 个 对 象 时 ， 它 
将 探 询 消息 转发 到 对 象 所 在 的 服务 器 ， 由 它 将 探 询 消息 向 下 传递 。 

在 图 14-15 的 例子 中 ， 当 U 开 始 等 待 Y 时 ，V 的 协调 者 将 保存 探 询 消息 <U 一 V>， 见 图 14-17a。 
接着 ， 当 V 开 始 等 待 W 时 ，W 的 协调 者 将 保存 <V 一 W>， 并 且 V 将 它 的 探 询 队列 <U 一 V> 发 给 W。 在 
图 14-17b 中 ，W 的 探 询 队列 包含 <U 一 V> 和 <V 一 W>。 当 W 开 始 等 待 A 时 ， 它 就 转发 它 的 探 询 队列 
<U 一 V 一 W> 到 A 的 服务 器 ， 该 服务 器 发 现 新 的 依赖 W 一 U， 并 将 它 和 已 收 到 的 信息 合并 ， 发 现 U 一 
V 一 W 一 U。 从 而 将 死 锁 检测 出 来 。 
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当 一 个 算法 要 求 将 探 询 消息 存储 在 探 询 队 列 中 时 ， 同 时 要 求 将 探 询 消息 传递 到 新 的 服务 器 并 
且 丢 弃 已 提交 或 已 放弃 时 事务 的 探 询 消息 。 如 果 相 关 的 探 询 消息 被 丢弃 ， 某 些 死 锁 就 有 可 能 不 被 
发 现 ， 另 一 方面 ， 如 果 过 期 的 探 询 仍然 保留 ， 就 可 能 检测 出 假死 锁 。 这 样 边 追 逐 算法 会 变 得 很 复 
杂 。 对 算法 的 细节 有 兴趣 的 读者 可 参见 [Sinha and Natarajan 1985] 和 [Choudhary et al. 1989]， 其 中 
给 出 了 使 用 排他 锁 的 算法 。Choudhary 等 人 指出 ，Sinha 和 Natarajan 的 算法 是 不 正确 的 ， 该 算法 不 
能 检测 出 所 有 的 死 锁 ， 并 且 还 会 发 现 一 些 假死 锁 。Choudhary 等 人 的 算法 仍然 存在 这 些 问 题 ， 
[Kshemkalyani and Singhal 1991] 又 更 正 了 Choudhary 等 人 的 算法 (该 算法 不 能 检测 出 所 有 的 死 锁 ， 
而 且 可 能 报告 假死 锁 )， 并 且 提 供 了 一 个 更 正 后 算法 的 正确 性 证 明 。 在 随后 的 一 些 文献 中 ， 
[Kshemkalyani and Singhal 1994] 指 出 ， 由 于 分 布 式 系统 中 不 存在 全 局 状态 或 时 间 ， 因 此 理解 分 布 
式 死 锁 有 一 定 的 困难 。 事 实 上 ， 任 何 一 个 收集 到 的 环 路 所 记录 的 信息 来 自 不 同 的 时 间 。 另 外 ， 在 
死 锁 发 生 时 ， 节 点 可 能 得 到 信息 ， 但 是 这 些 节 点 得 到 死 锁 被 解除 的 信息 的 时 间 却 会 被 延迟 。 该 文 
献 利 用 在 不 同 场地 的 事件 之 间 的 因果 关系 ， 描 述 了 一 种 在 分 布 式 共享 内 存 中 的 分 布 式 死 锁 。 


14.6 事务 恢复 


事务 的 原子 性 要 求 所 有 已 提交 事务 的 效果 反映 在 事务 所 访问 的 对 象 中 ， 而 这 些 对 象 不 呈现 所 
有 未 提交 或 放弃 事务 的 效果 。 这 个 特性 可 以 从 两 方面 加 以 描述 : 持久 性 和 故障 原子 性 。 持 久 性 要 
求 对 象 被 保存 在 持久 性 存储 中 并 且 一 直 可 用 。 因 此 ， 如 果 客 户 提交 请 求 得 到 确认 ， 那 么 事务 的 所 
有 影响 就 被 记录 到 持久 存储 和 服务 器 (的 挥发 性 ) 对 象 中 。 故 障 原子 性 要 求 即使 在 服务 器 出 现 故 
障 时 ， 事 务 的 更 新 作用 也 是 原子 的 。 事 务 恢复 就 是 保证 服务 器 上 对 象 的 持久 性 并 保证 服务 提供 故 
障 原 子 性 。 

虽然 文件 服务 器 和 数据 库 服务 器 将 数据 保持 在 持久 性 存储 中 ， 但 其 他 类 型 的 服务 器 上 的 可 恢 
复 对 象 不 必 如 此 保存 ， 除 非 是 为 了 恢复 。 本 章 假 设 在 服务 器 运行 时 ， 它 的 所 有 对 象 都 存放 在 挥发 
性 存储 中 ， 而 提交 后 的 对 象 保存 在 一 个 或 多 个 恢复 文件 中 。 这 样 ， 事 务 恢复 过 程 实际 上 就 是 根据 
持久 存储 中 最 后 提交 的 对 象 版 本 来 恢复 服务 器 中 对 象 的 值 。 由 于 数据 库 需要 处 理 大 量 数据 ， 它 们 
通常 将 对 象 保存 在 磁盘 的 稳定 存储 中 ， 而 在 挥发 性 内 存 中 维护 一 个 缓存 。 

持久 性 要 求 和 故障 原子 性 要 求 两 者 并 非 完全 独立 ， 它 们 可 以 利用 统一 的 机 制 来 解决 ， 即 利用 
恢复 管理 器 。 恢 复 管 理 器 的 任务 是 : 

“对 已 提交 事务 ， 将 它们 的 对 象 保存 在 持久 存储 (在 一 个 恢复 文件 ) 中 。 

“ 服务 器 月 澳 后 恢复 服务 器 上 的 对 象 。 

“重新 组 织 恢复 文件 以 提高 恢复 的 性 能 。 

"回收 〈 恢 复 文件 中 的 ) 存储 空间 。 

在 某 些 情况 下 ， 恢 复 管理 器 应 能 够 应 对 介质 故障 。 所 谓 介质 故障 是 指 ， 由 于 软件 崩 定 、 持 久 
存储 老化 或 持久 存储 故障 ， 造 成 恢复 文件 故障 ， 以 至 于 磁盘 数据 丢失 。 此 时 ， 我 们 需要 恢复 文件 
的 另 一 个 拷贝 。 当 然 ， 这 也 可 以 在 稳定 存储 中 实现 ， 如 利用 位 于 不 同 场地 的 镜像 磁盘 或 异地 拷贝 ， 
使 持久 存储 不 太 可 能 出 现 故障 。 

意图 列表 每 一 个 提供 事务 支持 的 服务 器 都 需要 记录 被 客户 事务 访问 的 对 象 。 第 13 章 提 到 ， 
当 客 户 创建 一 个 事务 时 ， 与 之 联系 的 服务 器 首先 提供 一 个 新 的 事务 标识 符 ， 并 返回 给 客户 。 此 后 
的 每 个 客户 操作 ， 包 括 最 后 的 提交 和 放弃 操作 ， 都 要 将 这 个 事务 标识 符 作为 一 个 参数 传递 。 在 事 
务 的 进行 过 程 中 ， 所 有 的 更 新 操作 都 是 针对 该 事务 私有 的 临时 版 本 对 象 集 进 行 。 

在 每 个 服务 器 上 ， 意 图 列表 用 来 记录 该 服务 器 上 的 所 有 活动 事务 ， 每 个 事务 的 意图 列表 都 记 
录 了 该 事务 修改 的 对 象 的 值 和 引用 列表 。 当 事务 提交 时 ， 它 的 意图 列表 用 来 确定 所 有 受 影响 的 对 
象 ， 然 后 事务 将 用 对 象 的 临时 版 本 替换 成 对 象 的 提交 版 本 ， 并 将 对 象 的 新 值 写 人 到 服务 器 的 恢复 
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文件 中 。 当 事务 放弃 时 ， 服 务 器 利用 意图 列表 来 删除 该 事务 形成 的 对 象 的 所 有 临时 版 本 。 

前 面 介绍 过 ， 分 布 式 事 务 在 提交 和 放弃 时 必须 执行 一 个 原子 提交 协议 。 我 们 讨论 的 恢复 基于 
两 阶段 提交 协议 : 首先 所 有 的 参与 者 投票 表决 是 否 准 备 提交 ， 如 果 都 准备 好 提交 ， 那 么 它们 统一 
执行 真正 的 提交 动作 。 如 果 有 参与 者 不 同意 提交 ， 那 么 该 事务 必须 放弃 。 

一 且 某 个 参与 者 表示 已 叭 备 好 提交 ， 那 么 它 的 恢复 管理 器 必须 将 意图 列表 和 列表 中 的 对 象 都 
保存 到 恢复 文件 中 ， 此 后 不 管 中 途 是 否 出 现 崩溃 故障 ， 它 总 能 完成 提交 动作 。 

如 果 分 布 式 事务 中 的 所 有 参与 者 一 致 同意 提交 ， 那 么 协调 者 将 向 所 有 的 参与 者 发 送 提交 命令 
并 通知 客户 。 当 客户 得 知事 务 已 被 提交 时 ， 参 与 者 服务 器 的 恢复 文件 必须 保存 足够 的 信息 。 这 样 
即使 服务 器 在 准备 好 提交 和 提交 之 间 出 现 崩溃 故障 ， 也 能 保证 事务 最 终 完 成 提交 。 

恢复 文件 中 的 内 容 为 了 处 理 分 布 式 事务 所 涉及 的 服务 器 的 恢复 问题 ， 除 了 保存 对 象 值 外 ， 还 
需 在 恢复 文件 中 保存 其 他 信息 。 这 些 信息 和 事务 状态 相关 ， 即 事务 是 处 于 “已 提交 ”、“ 已 放弃 ” 
还 是 “准备 好 ”状态 。 另 外 ， 恢 复 文件 中 的 每 一 个 对 象 都 通过 意图 列表 和 某 个 事务 联系 在 一 起 。 
图 14-18 列 出 了 恢复 文件 中 的 记录 类 型 。 


类 型 描 述 
对 象 某 个 对 象 的 值 
事务 状态 ”事务 标识 符 ， 事 务 的 状态 〈 准 备 好 、 已 提交 、 已 放弃 ) 和 其 他 用 于 两 阶段 提交 协议 的 状态 
意图 列表 ”事务 标识 符 和 -~ 系列 意图 记录 ， 每 个 意图 记录 由 < 对 象 标 识 >、< 对 象 值 在 恢复 文件 中 的 位 置 > 组 成 


图 14-18 恢复 文件 中 的 记录 类 型 


两 阶段 提交 协议 中 的 事务 状态 值 将 在 14.6.4 节 讨论 。 下 面 将 介绍 恢复 文件 的 两 种 常用 方法 ; 日 
志方 法 和 影子 版 本 方法 。 


14.6.1 日 志 


在 日 志 技术 中 ， 恢 复 文件 包含 该 服务 器 执行 的 所 有 事务 的 历史 。 该 历史 由 对 象 值 、 事 务 状态 
和 意图 列表 组 成 。 日 志 中 的 次 序 反映 了 服务 器 上 事务 准备 好 、 已 提交 或 已 放弃 的 顺序 。 实 际 上 ， 
恢复 文件 将 包含 服务 器 上 所 有 对 象 的 值 的 一 个 最 近 快照 ， 随 后 存放 该 快照 后 的 事务 历史 。 

在 服务 器 的 正常 操作 过 程 中 ， 当 事务 处 于 准备 提交 、 提 交 或 放弃 状态 时 ， 恢 复 管理 器 就 被 调 
用 。 当 服务 器 准备 提交 某 个 事务 时 ， 恢 复 管理 器 将 所 有 意图 列表 中 的 对 象 追 加 到 恢复 文件 中 ， 后 
面 是 事务 的 当前 状态 (准备 好 ) 和 意图 列表 。 当 该 事务 最 终 提交 或 放弃 时 ， 恢 复 管理 器 将 事务 相 
应 的 状态 追加 到 恢复 文件 。 

我 们 假定 恢复 文件 的 追加 操作 是 原子 的 ， 即 它 总 是 写 人 完整 的 内 容 。 如 果 服 务 器 崩溃 ， 那 么 只 
有 最 后 一 次 写 操作 可 能 不 完整 。 为 了 有 效 利用 磁盘 ， 可 以 将 几 次 连续 的 写 操作 缓冲 起 来 ， 然 后 通过 
一 次 操作 写 入 恢复 文件 。 日 志 技术 的 另 一 个 优点 就 是 顺序 写 盘 操作 要 比 随机 写 盘 操作 的 速度 快 。 

所 有 未 提交 的 事务 在 崩溃 后 全 部 放弃 。 因 此 ， 当 事务 提交 时 ， 它 的 “提交 ”状态 应 强制 写 入 
日 志文 件 ， 即 连同 其 他 缓冲 的 内 容 一 并 写 入 日 志 。 

恢复 管理 器 给 每 个 对 象 附 上 唯一 的 标识 符 ， 这 样 在 恢复 文件 中 ， 对 象 的 不 同 版 本 可 以 与 服务 
器 上 的 对 象 联系 起 来 。 例 如 ， 远 程 对象 引 用 的 持久 形式 (例如 CORBA 的 持久 引用 ) 就 可 以 作为 对 
象 标识 符 。 

图 14-19 表 示 了 图 13-7 的 银行 业务 中 事务 T 和 U 的 日 志 机 制 。 日 志文 件 被 重新 组 织 后 ， 双 线 左边 
的 内 容 表示 事务 T 和 U 开 始 前 对 象 A、B 和 C 的 值 。 本 图 直接 利用 A、B 和 C 作 为 对 象 标识 符 。 双 线 右 
边 的 内 容 表示 事务 T 已 提交 而 事务 U 准 备 好 但 未 提交 的 状态 。 在 事务 T 准 备 提交 时 ， 对 象 A 和 B 的 值 
分 别 写 到 日 志 位 置 PJ, 和 P, 处 ， 紧 接着 “已 准备 好 ”状态 和 意图 列表 (<A, Pi>, <B, P,>) 也 被 写 人 日 
志 。 当 IT 提交 时 ， 它 的 提交 状态 被 写 人 位 置 P\ 处 。 然 后 ， 在 事务 U 准 备 提交 时 ， 对 象 C 和 B 的 值 被 分 
别 写 人 位 置 Ps 和 Pe 处 ,“ 已 准备 好 ”事务 状态 和 意图 列表 (<C, P;>, <B, Pe>) 也 被 写 人 日 志 。 
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图 14-19 银行 服务 例子 的 日 志 


在 恢复 文件 中 ， 每 个 事务 状态 记录 都 包含 一 个 指针 ， 指 向 恢复 文件 中 前 一 个 事务 状态 记录 的 
位 置 。 这 样 ， 恢 复 管理 器 可 根据 这 个 指针 逆向 读 取 某 个 事务 的 所 有 事务 状态 值 。 事 务 状态 记录 序 
列 的 最 后 一 个 指针 指向 检查 点 。 

对 象 的 恢复 ” 当 服务 器 因 崩 省 而 被 替换 后 ， 它 首先 将 对 象 置 为 默认 的 初始 值 ， 然 后 将 控制 转 
给 恢复 管理 器 。 恢 复 管理 器 的 任务 是 恢复 所 有 对 象 的 值 ， 使 这 些 值 反映 按 正确 次 序 执行 的 所 有 已 
提交 事务 的 效果 ， 而 不 包含 任何 未 完成 或 放弃 的 事务 的 效果 。 

有 关 事 务 最 新 的 信息 在 日 志 的 尾部 。 根 据 恢复 文件 来 恢复 数据 有 两 种 方法 。 一 种 方法 是 ， 恢 
复 管理 器 将 对 象 的 值 恢复 到 最 近 一 次 检查 点 时 的 值 ， 接 着 读 取 每 一 个 对 象 的 值 ， 将 它们 与 意图 列 
表 相 关联 ， 同 时 对 所 有 已 提交 事务 更 新 对 象 值 。 这 种 方法 按 事务 的 执行 次 序 来 更 新 对 象 值 ， 由 于 
检查 点 离 日 志 尾 部 可 能 很 远 ， 因 此 需要 读 取 大 量 的 日 志 记录 。 第 二 种 方法 是 ， 恢 复 管理 器 通过 地 
向 读 取 恢 复 文件 来 恢复 服务 器 的 对 象 值 。 恢 复 文件 中 有 一 个 向 后 指针 从 一 个 事务 状态 指向 下 一 个 
事务 状态 。 恢 复 管理 器 用 具有 已 提交 状态 的 事务 来 恢复 还 没有 被 恢复 的 对 象 ， 直 到 它 恢复 了 所 有 
服务 器 上 的 对 象 为 止 。 这 种 方式 的 优点 是 每 个 对 象 只 需 恢复 一 次 。 

为 了 恢复 事务 的 效果 ， 恢 复 管理 器 从 恢复 文件 中 读 取 相 应 的 意图 列表 。 列 表 包 含 了 所 有 更 新 
对 象 的 标识 符 和 更 新 后 对 象 值 的 在 恢复 文件 中 的 位 置 。 

以 图 14-19 为 例 ， 如 果 服 务 器 崩溃 后 日 志文 件 的 内 容 如 图 所 示 时 ， 它 的 恢复 管理 器 将 按 如 下 步 
又 进行 恢复 处 理 。 首 先 它 读 取 日 志文 件 的 最 后 一 个 记录 (在 Pj 处 )， 从 而 得 知事 务 U 尚 未 提交 ， 它 
的 更 新 应 全 部 撤销 。 接 着 ， 它 读 取 前 一 个 事务 状态 记录 (在 Ps 处 )， 得 知事 务 T 已 提交 。 为 了 恢复 
事务 T 的 更 新 ， 恢 复 管理 器 读 取 在 P, 处 的 前 一 个 事务 状态 记录 ， 获 取 T 的 意图 列表 (<A, Pi>， <B， 
Ps>) ， 从 而 读 取 P 和 P, 处 的 记录 来 恢复 AB 的 值 。 此 时 ， 还 未 恢复 对 象 C 的 值 ， 它 移 回 到 检查 点 Pu 
处 , 恢复 C 的 值 。 

为 了 有 助 于 后 继 的 恢复 文件 重组 ， 恢 复 管理 器 在 以 上 过 程 中 记录 了 所 有 准备 提交 的 事务 。 对 
于 每 个 准备 好 提交 的 事务 ， 它 在 恢复 文件 中 追加 一 个 放弃 事务 状态 记录 。 这 样 可 以 保证 每 个 事务 
总 是 处 于 已 提交 或 已 放弃 状态 。 

服务 器 在 恢复 过 程 中 仍然 可 能 发 生 故 障 ， 因 此 有 必要 保证 恢复 过 程 是 雷 等 的 ， 即 可 以 重复 进 
行 多 次 而 保证 执行 效果 不 变 。 由 于 我 们 假设 所 有 的 对 象 都 存储 在 可 变 内 存 中 ， 因 此 恢复 过 程 自然 
是 可 重复 的 。 但 在 数据 库 系统 中 ， 由 于 数据 保存 在 持久 存储 中 ， 可 变 内 存 中 只 有 一 个 缓存 ， 因 此 
在 服务 器 崩溃 后 被 替换 时 ， 持 久 存 储 中 的 有 些 对 象 可 能 已 经 过 期 。 这 样 ， 它 的 恢复 管理 器 必须 恢 
复 这 些 持久 存储 中 的 对 象 。 如 果 它 在 恢复 过 程 中 又 崩溃 ， 部 分 已 恢复 的 对 象 可 能 还 在 那里 ， 这 使 
达到 等 等 效果 的 难度 稍微 大 一 些 。 

恢复 文件 的 重组 ”恢复 管理 器 为 了 使 恢复 过 程 执行 得 更 快 或 为 了 节省 存储 空间 ， 它 有 时 需要 
重组 恢复 文件 。 如 果 恢复 文件 一 直 不 重组 ， 那 么 恢复 过 程 必须 逆向 搜索 整个 恢复 文件 ， 直 到 找到 
所 有 对 象 的 值 为 止 。 从 概念 上 说 ， 恢 复 过 程 需要 的 信息 只 需 包 含 所 有 对 象 的 提交 后 版 本 的 拷贝， 
这 是 恢复 文件 最 简洁 的 形式 。 检 查 点 过 程 是 将 当前 所 有 已 提交 的 对 象 的 值 写 人 一 个 新 恢复 文件 的 
过 程 ， 同 时 还 需 写 人 的 信息 包括 事务 的 状态 记录 和 尚未 完全 提交 的 事务 的 意图 列表 (包括 两 阶段 
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提交 协议 相关 的 信息 )。 术 语 检 查 点 指 由 该 过 程 存储 的 信息 。 设 置 检查 点 的 目的 是 减少 恢复 过 程 中 
需要 处 理 的 事务 数目 和 回收 文件 空间 。 

检查 点 过 程 可 以 在 恢复 过 程 结 束 后 新 事务 开始 之 前 进行 。 但 是 ， 恢 复 过 程 并 不 经 常 发 生 。 在 
服务 器 正常 处 理 过 程 中 需要 不 时 进行 检查 点 过 程 。 检 查 点 被 写 人 另 一 个 新 的 恢复 文件 ， 在 检查 点 
写 人 完毕 之 前 ， 当 前 恢复 文件 将 不 再 使 用 。 在 检查 点 过 程 开始 时 ， 首 先 在 恢复 文件 中 做 一 个 标记 ， 
然后 将 服务 器 的 对 象 写 人 新 的 恢复 文件 ， 接 着 ， 拷 贝 (1) 标记 点 前 与 未 完成 事务 有 关 的 内 容 ， 
(2) 标记 点 后 的 所 有 内 容 到 这 个 新 的 文件 中 。 当 检查 点 完成 时 ， 这 个 新 文件 可 用 于 以 后 的 操作 。 

恢复 管理 器 通过 丢弃 旧 的 恢复 文件 来 减少 磁盘 空间 。 当 恢复 管理 器 执行 恢复 过 程 时 ， 可 能 过 
到 恢复 文件 中 的 检查 点 。 一 旦 遇 到 检查 点 ， 它 就 立即 根据 检查 点 中 的 对 象 值 来 恢复 对 象 。 


14.6.2 影子 版 本 


日 志 技术 将 事务 状态 信息 、 意 图 列表 和 对 象 记录 在 同一 个 文件 〈 即 日 志 ) 中 。 影 子 版 本 是 另 
一 -种 恢复 文件 的 组 织 方式 。 它 利用 一 个 映射 来 定位 在 版 本 存储 文件 中 的 某 个 对 象 版 本 。 这 个 映射 
将 对 象 标识 符 和 对 象 当前 版 本 在 版 本 存储 中 的 位 置 对 应 起 来 。 每 个 事务 写 人 的 版 本 均 是 前 面 提交 
版 本 的 影子 版 本 。 当 使 用 影子 版 本 方式 的 恢复 处 理 时 ， 事 务 状 态 和 意图 列表 被 分 别 对 待 。 下 面 首 
先 介绍 对 象 的 影子 版 本 。 

当 事 务 准 备 提交 时 ， 该 事务 更 新 的 所 有 对 象 被 追加 到 版 本 存储 中 ， 并 保留 对 象 的 相应 的 已 提 
交 版 本 不 变 。 对 象 的 这 个 新 的 临时 版 本 被 称 为 影子 版 本 。 当 事务 提交 时 ， 系 统 从 旧 映 射 表 复 制 一 个 
新 的 映射 表 并 在 其 中 输入 影子 版 本 的 位 置 。 接 着 ， 用 这 个 新 映射 表 替 换 旧 映射 表 即 完成 提交 过 程 。 

当 服务 器 因 崩 溃 而 被 替换 时 ,要 恢复 对 象 ， 
由 恢复 管理 器 读 取 映射 ， 并 使 用 映射 中 的 信息 


事务 开始 时 的 映射 事务 提交 后 的 映射 


4 一 
来 定位 版 本 存储 中 的 对 象 。 pp 

图 14-20 表 示 了 事务 T 和 U 使 用 影子 版 村 | ce” cm 
的 情况 。 表 的 第 一 列表 示 事 务 T 和 U 运 行 之 前 的 Po P" P P, Pp P, 
映射 ， 这 时 账户 A、B 和 C 的 余额 分 别 是 $100、 | 版 本 存储 100 200 300 80 220 278 242 
$200 和 $300。 表 的 第 二 列表 示 事 务 T 提 交 后 的 检查 点 
映射 。 图 14-20 影子 版 本 


版 本 存储 包含 一 个 检查 点 ， 接 着 是 事务 T 
更 新 的 对 象 A 和 B 的 版 本 ,分别 位 于 P, 和 P, 处 。 它 也 包含 事务 U 更 新 的 对 象 B 和 C 的 影子 版 本 ， 分 别 
在 Ps 和 Ps 处 。 

映射 必须 保存 在 一 个 已 知 的 位 置 ， 例 如 版 本 存储 的 开始 处 或 者 一 个 独立 的 文件 中 ， 这 样 当 系 
统 需 要 进行 恢复 时 总 能 找到 它 。 

事务 提交 时 从 拍 映射 到 新 映射 的 切换 必须 用 一 个 原子 步骤 完成 。 为 了 保证 这 一 点 ， 必 须 将 映 
射 放 在 持久 存储 中 ， 这 样 即 使 写 文件 操作 失败 后 仍然 能 保留 有 效 的 映射 。 在 恢复 过 程 中 ， 由 于 影 
子 版 本 方式 在 映射 中 记录 了 所 有 对 象 的 最 新 提交 版 本 ， 因 此 它 比 日 志 具 有 更 好 的 性 能 。 但 在 系统 
的 正常 操作 过 程 中 ， 日 志 操作 应 该 更 快 ， 这 是 因为 日 志 操作 只 需 向 同一 个 文件 追加 日 志 记 录 ， 而 
影子 版 本 需要 额外 的 相对 稳定 存储 (涉及 不 相关 磁盘 块 ) 的 写 操作 。 

影子 版 本 对 于 处 理 分 布 式 事务 的 服务 器 而 言 还 是 不 够 的 。 事 务 状 态 和 意图 列表 被 记录 在 事 
务 状态 文件 中 。 每 个 意图 列表 代表 某 个 事务 提交 后 会 改变 的 部 分 映射。 事务 状态 文件 可 能 组 织 
成 日 志 。 

下 图 给 出 了 银行 例子 所 使 用 的 映射 和 事务 状态 文件 ， 这 时， 事务 T 已 经 提交 ， 而 事务 U 正 准备 


提交 。 
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事务 状态 文件 (持久 存储 ) 





映射 T T U 

A—P, 准备 好 已 提交 准备 好 
B—P, A—P, B—P, 
C—Po" B—P, C—P 


在 提交 状态 写 人 事务 状态 文件 和 映射 被 更 新 之 间 的 这 段 时 间 内 ， 服 务 器 有 可 能 崩溃 ， 此 时 ， 
客户 不 会 得 到 通知 。 在 服务 器 崩溃 后 被 替换 的 时 候 ， 恢 复 管理 器 必须 允许 出 现 这 种 可 能 性 。 遇 到 
这 种 情况 ， 可 以 检查 映射 是 否 包含 了 在 事务 状态 文件 中 最 后 提交 事务 的 效果 。 如 果 没 有 ， 那 么 这 
个 事务 就 应 该 标记 成 已 放弃 。 


14.6.3 为 何 恢复 文件 需要 事务 状态 和 意图 列表 


设计 不 包含 事务 状态 信息 和 意图 列表 的 简单 恢复 文件 是 可 能 的 ， 这 种 恢复 文件 适用 于 单 服务 
器 上 的 事务 。 但 对 于 参与 分 布 事务 处 理 的 服务 器 来 说 ， 事 务 状态 信息 和 意图 列表 是 非常 必要 的 。 
而 且 ， 对 于 非 分 布 式 事务 的 服务 器 ， 这 种 方法 也 是 有 益 的 ， 其 原因 有 以 下 几 点 : 

*。 一些 恢复 管理 器 会 较 早 地 将 对 象 写 人 恢复 文件 一 一 假设 事务 会 正常 提交 。 

“ 如果 事务 使 用 了 很 多 大 对 象 时 ， 将 这 些 对 象 连续 地 写 人 恢复 文件 会 使 服务 器 设计 更 加 复杂 。 

如 果 对 象 可 以 从 意图 列表 引用 的 话 ， 那 么 对 象 可 以 存在 恢复 文件 的 任何 地 方 。 

“在 时 间 蕉 并 发 控制 方法 中 ， 有 时 候 服务 器 能 够 知道 事务 将 最 终 提交 并 告 之 客户 ， 此 时 对 象 必 

须 写 入 恢复 文件 (参见 第 13 章 ) 来 保证 持久 性 。 但 是 ， 事 务 可 能 需要 等 待 其 他 较 早 的 事务 提 

交 。 在 这 种 情况 下 ， 恢 复 文件 中 相应 的 事务 状态 将 是 “等 待 提交 ”， 然 后 是 “提交 ”， 以 确保 

恢复 文件 中 已 提交 事务 的 时 间 改 排序。 在 进行 恢复 时 ， 任 何 一 个 等 待 提交 的 事务 将 允许 提交 ， 

这 是 因为 它 等 待 的 事务 或 者 已 经 提交 ， 或 者 由 于 服务 器 故障 已 被 放弃 。 


14.6.4 两 阶段 提交 协议 的 恢复 


在 分 布 式 事务 中 ， 每 个 服务 器 维护 自己 的 恢复 文件 。 前 面 介 绍 的 恢复 管理 必须 加 以 扩展 ， 以 
处 理 服务 器 故障 时 执行 两 阶段 提交 协议 的 事务 。 这 时 恢复 管理 器 会 用 到 两 个 新 的 事务 状态 :“ 完 成 ” 
和 “不 确定 "。 图 14-6 表 示 了 这 两 个 状态 的 含义 。 协 调 者 用 “已 提交 ”状态 来 标记 投票 的 结果 是 
Yes， 用 “完成 ”状态 表示 两 阶段 提交 协议 已 经 完成 。 参 与 者 用 “不 确定 ”状态 表示 它 的 投票 是 
Yes 但 尚未 收 到 事务 的 提交 决议 。 另 外 还 使 用 了 两 种 记录 类 型 ， 以 便 让 协调 者 需要 记录 所 有 的 参与 
者 ， 每 个 参与 者 需要 记录 协调 者 。 


记录 类 型 记录 内 容 的 描述 
协调 者 事务 标识 符 ， 参 与 者 列表 
参与 者 事务 标识 符 ， 协 调 者 


在 协议 的 第 一 阶段 ， 当 协调 者 准备 提交 时 (并且 已 经 在 恢复 文件 中 追加 了 一 个 “准备 好 ” 状 
态 记录 ) ， 它 的 恢复 管理 器 在 恢复 文件 中 追加 一 个 “协调 者 ”记录 。 每 个 参与 者 在 它 投 Yes 票 之 前 ， 
必须 已 经 处 于 准备 提交 的 状态 ， 即 在 恢复 文件 中 追加 一 个 “准备 好 ”状态 记录 。 当 它 投 Yes 票 时 ， 
它 的 恢复 管理 器 在 恢复 文件 中 增加 一 个 参与 者 记录 ， 并 写 人 “不 确定 ”事务 状态 。 当 它 投 No 票 时 ， 
则 在 恢复 文件 中 追加 “已 放弃 ”事务 状态 。 

在 协议 的 第 二 阶段 ， 协 调 者 的 恢复 管理 器 根据 提交 决议 ， 在 恢复 文件 中 添加 “已 提交 ”或 
“已 放弃 ”状态 。 这 必须 是 一 次 强制 写 信 。 参 与 者 的 恢复 管理 器 根据 从 协调 者 收 到 的 消息 ， 在 恢复 
文件 中 分 别 追 加 “已 提交 ”或 “已 放弃 ”状态 。 当 协调 者 收 到 所 有 参与 者 的 确认 消息 之 后 ， 它 的 


pa 


恢复 管理 器 向 恢复 文件 中 写 信 “完成 ”状态 ， 这 次 写 入 不 是 强制 要 求 的 。 状 态 “ 完 成 ”本 身 不 是 
提交 协议 的 一 部 分 ， 但 是 使 用 它 有 利于 组 织 恢复 文件 。 图 14-21 表 示 了 用 于 事务 IT 的 日 志文 件 的 内 
容 ， 其 中 服务 器 在 事务 T 中 扮演 协调 者 角色 ， 在 事务 U 中 扮演 参与 者 角色 。 这 两 个 事务 的 最 初 状态 
都 是 “准备 好 ”。 在 事务 T 中 ,“ 准 备 好 ”状态 记录 之 后 跟着 一 个 协调 者 记录 和 一 个 “已 提交 ”状态 
记录 (图 中 没有 显示 “完成 ”状态 记录 )。 在 事务 U 中 ,“ 准 备 好 ”状态 记录 之 后 跟着 一 个 状态 为 
“不 确定 ”的 参与 者 记录 ， 接 着 是 一 个 “已 提交 ”或 “已 放弃 ”状态 记录 。 


图 14-21 与 两 阶段 提交 协议 相关 的 日 志 记 录 


当 服 务 器 因 崩 省 而 被 替代 之 后 ， 恢 复 管理 器 除了 需要 恢复 对 象 之 外 ， 还 要 处 理 两 阶段 提交 协 
议 。 对 任何 一 个 服务 器 扮演 协调 者 角色 的 事务 而 言 ， 恢 复 管理 器 应 当 寻 找 协 调 者 记录 和 事务 状态 
信息 。 对 任何 一 个 服务 器 扮演 参与 者 角色 的 事务 ， 恢 复 管理 器 应 当 寻 找 参与 者 记录 和 事务 状态 信 
息 。 在 这 两 种 情况 下 ， 最 新 的 事务 状态 信息 一 一 在 日 志 的 最 后 部 分 一 一 反映 了 故障 时 的 事务 状态 。 
此 时 ， 恢 复 管理 器 需要 根据 服务 器 是 协调 者 或 参与 者 以 及 故障 时 的 状态 采取 动作 ， 如 图 14-22 所 示 。 


角色 状态 恢复 管理 器 的 动作 

协调 者 ”准备 好 由 于 在 服务 器 发 生 故 障 时 尚未 做 出 任何 决定 ， 因 此 向 参与 者 列表 中 的 所 有 服务 器 发 
送 abortTransaction 命 令 ， 并 在 恢复 文件 中 记录 一 个 已 放弃 记录 。 在 已 放 寞 状态 下 的 操 
作 也 是 这 样 。 如 果 目 前 还 没有 参与 者 列表 ， 那 么 参与 者 将 由 于 超时 最 终 放 弃 事 务 

协调 者 在 服务 器 故障 发 生 时 已 经 做 出 决定 要 提交 事务 。 因 此 向 参与 者 列表 中 的 所 有 参与 者 
发 送 doCommit 命令 ， 继 续 执行 两 阶段 提交 协议 的 第 4 步 


参与 者 < 参与 者 向 协调 者 发 送 haveCommitted 消息 。 这 人 允许 协调 者 在 下 一 个 检查 点 处 丢弃 该 
事务 的 信息 

参与 者 不 参与 者 在 获得 决议 之 前 发 生 故障 ， 那 么 它 在 协调 者 通知 它 前 不 能 确定 事务 的 状态 。 
因此 参与 者 将 向 协调 者 发 送 getDecision 请 求 来 询问 事务 状态 。 当 它 获得 回复 后 再 提交 
或 放弃 事务 

参与 者 参与 者 尚未 投票 ， 它 可 以 单方 面 放弃 事务 

协调 者 ”完成 不 需要 任何 操作 





图 14-22 两 阶段 提交 协议 的 恢复 


恢复 文件 的 重组 ”在 执行 检查 点 的 过 程 中 ， 需 特别 注意 不 能 将 未 完成 的 协调 者 从 恢复 文件 中 
删除 ， 这 些 信息 必须 在 所 有 参与 者 确认 它们 已 完成 事务 之 前 一 直 保留 。 事 务 状态 是 “已 完成 ”的 
记录 可 以 被 丢弃 。 状 态 是 “不 确定 ”的 参与 者 也 必须 保留 。 

惨 套 事务 的 恢复 ”在 最 简单 的 情况 下 ， 代 套 事务 的 每 个 子 事务 访问 不 同 的 对 象 集 。 在 两 阶段 
提交 协议 中 ， 当 每 个 参与 者 准备 提交 时 ， 它 将 它 的 对 象 和 意图 列表 写 人 本 地 的 恢复 文件 ， 并 且 在 
这 些 记录 上 附 上 顶层 事务 的 标识 符 。 尽 管 代 套 事务 使 用 两 阶段 提交 协议 的 变种 ， 但 恢复 管理 器 使 
用 的 事务 状态 值 和 平面 事务 是 一 样 的 。 

但 是 ， 如 果 相 同 或 不 同 嵌 套 层次 上 的 子 事务 访问 了 相同 的 对 象 ， 那 么 事务 放弃 和 恢复 过 程 将 
变 得 复杂 一 些 。13.4 节 描述 的 加 锁 方案 支持 父 事务 继承 子 事务 的 锁 以 及 子 事务 从 父 事务 处 获取 锁 。 
这 种 加 锁 方案 要 求 父 事务 和 子 事务 在 不 同 的 时 刻 访问 公共 数据 对 象 ， 并 确保 并 发 子 事务 对 同一 对 
象 的 访问 必须 是 串 行 化 的 。 
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根据 供 套 事务 规则 访问 的 对 象 由 各 子 事务 提供 临时 版 本 来 保证 其 可 恢复 性 。 做 套 事务 的 子 事 
务 所 使 用 的 对 象 的 不 同 临时 版 本 之 间 的 关系 和 锁 之 间 的 关系 类 似 。 为 了 支持 事务 放弃 时 的 恢复 ， 
多 个 层次 事务 共享 的 对 象 的 服务 器 按 栈 方式 组 织 临时 版 本 一 一 每 个 能 套 事务 使 用 一 个 栈 。 

每 当 侈 套 事务 中 的 第 一 个 子 事务 访问 对 象 时 ， 该 事务 获得 对 象 当 前 提交 版 本 的 一 个 临时 版 本 ， 
并 且 这 个 临时 版 本 被 放置 在 栈 项 。 但 是 除非 有 其 他 的 子 事务 访问 同一 个 对 象 ， 否 则 这 个 栈 实 际 上 
不 需要 真正 产生 。 

当 某 个 子 事务 访问 同一 个 对 象 时 ， 它 将 复制 栈 项 的 版 本 并 且 把 它 重新 入 栈 。 所 有 的 子 事务 更 
新 都 作用 于 栈 顶 的 临时 版 本 。 当 子 事务 临时 提交 后 ， 它 的 父 事务 将 继承 这 个 新 版 本 。 为 了 实现 这 
一 点 ， 子 事务 的 版 本 和 父 事务 的 版 本 都 从 栈 中 丢弃 ， 而 将 子 事务 的 新 版 本 重新 放 人 栈 中 (实际 上 
赫 换 了 父 事务 的 版 本 )。 当 子 事务 放弃 后 ， 它 在 栈 顶 的 版 本 被 丢弃 。 最 终 ， 当 顶层 事务 提交 时 ， 栈 
顶 版 本 (如果 有 的 话 ) 将 成 为 新 的 提交 版 本 。 

例如 ， 在 图 14-23 中 ， 假 设 事务 Ti 、Ti、Tb 和 T: 以 T，T，Ta，T: 的 次 序 访问 同一 个 对 象 A。 
设 它们 的 临时 版 本 分 别 是 A,、Al,，A1s 和 A，。 当 TT 开始 执行 时 ， 基 于 A 的 提交 版 本 的 A 被 推 和 人 栈 。 
当 Tu 开始 执行 时 ， 它 基于 A, 上 的 A, 版 本 ， 并 将 Au 推 人 栈 ， 当 它 完成 时 ， 它 替换 栈 中 父 事务 的 版 
本 。 事 务 T,; 和 T, 按 类 似 的 方式 执行 ， 最 终 T, 的 结果 被 留 在 栈 顶 。 


栈 顶 


n ns 


图 14-23 任 套 事务 


14.7 小 结 


在 大 多 数 情 况 下 ， 一 个 客户 发 起 的 事务 会 操作 多 个 不 同 服务 器 上 的 对 象 。 一 个 分 布 式 事务 是 
指 涉及 多 个 不 同 服务 器 的 事务 。 在 分 布 式 事务 中 ， 可 以 使 用 贬 套 事务 结构 ， 以 便 支持 更 高 的 并 发 
度 ， 并 允许 服务 器 独立 提交 。 

事务 的 原子 性 要 求 参与 分 布 式 事务 的 所 有 服务 器 或 者 全 部 提交 或 者 全 部 放弃 。 原 子 提交 协议 
用 于 保证 这 一 点 ， 即 使 在 执行 过 程 中 出 现 服务 器 崩溃 的 情况 也 可 以 保证 原子 性 。 两 阶段 提交 协议 
允许 任何 一 个 服务 器 单方 面 放弃 事务 ， 它 包含 了 一 些 超 时 操作 来 处 理由 于 服务 器 期 涡 造 成 的 延 时 。 
两 阶段 提交 协议 不 能 保证 在 有 限 的 时 间 内 完成 ， 但 是 它 能 确保 最 终 完成 。 

分 布 式 事务 中 的 并 发 控制 是 模块 化 的 一 一 每 个 服务 器 负责 访问 它 自己 对 象 的 事务 的 串 行 化 。 
但 是 在 保证 事务 全 局 串 行 化 时 需要 额外 的 协议 。 使 用 时 间 蕉 排序 的 分 布 式 事务 需要 一 种 时 间 发 排 
序 生成 方法 ， 以 便 在 多 个 服务 器 之 间 保 持 统一 的 时 间 玲 排序 。 使 用 乐观 并 发 控制 的 事务 则 需要 一 
种 全 局 验证 或 一 种 强制 正在 提交 事务 进行 金 局 排序 的 手段 。 

利用 两 阶段 加 锁 方 式 的 分 布 式 事务 会 导致 分 布 式 死 锁 。 分 布 式 死 锁 检测 的 目的 是 在 全 局 等 待 
图 中 寻找 环 路 。 一 旦 发 现 某 个 环 路 ， 必 须 放弃 一 个 或 者 多 个 事务 来 解除 死 锁 。 边 迫 逐 方法 是 一 种 
非 集中 式 分 布 式 死 锁 检测 方法 。 

基于 事务 的 应 用 通常 在 长 生命 周期 和 存储 信息 的 完整 性 方面 有 很 强 的 需求 ， 但 很 多 情况 下 它 
们 对 响应 时 间 的 要 求 不 高 。 原 子 提交 协议 是 分 布 式 事务 的 关键 ， 但 它们 不 能 保证 在 特定 的 时 间 限 
制 内 完成 。 事 务 的 持久 性 是 通过 执行 检查 点 和 在 恢复 文件 中 记录 日 志 完成 的 ， 当 服务 器 崩溃 后 被 
新 的 进程 取代 后 ， 检 查 点 和 恢复 文件 可 用 来 进行 恢复 处 理 。 在 进行 恢复 处 理 的 过 程 中 ， 事 务 服务 
的 用 户 会 感受 到 一 些 延迟 。 尽 管 运行 分 布 式 事 务 的 服务 器 可 能 出 现 崩 征 ， 并 且 处 于 异步 系统 中 ， 
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但 由 于 替换 崩溃 的 服务 器 的 进程 可 以 从 持久 存储 或 其 他 服务 器 中 获取 必要 的 信息 ， 因 此 ， 这 些 服 
务 器 仍然 能 够 就 事务 的 结果 达成 共识 。 


练习 


14.1 两 阶段 提交 协议 的 一 个 非 集中 方式 的 变种 是 让 各 个 参与 者 直接 通信 ， 而 不 是 利用 协调 者 进行 
间接 通信 。 在 第 一 阶段 ， 协 调 者 将 它 的 投票 发 送 给 所 有 的 参与 者 。 在 第 二 阶段 ， 如 果 协 调 者 
投 的 是 No 票 ， 那 么 参与 者 只 是 放弃 事务 ， 如 果 投 的 是 Yes 票 ， 那 么 每 个 参与 者 将 它 的 投票 发 
送 给 协调 者 和 其 他 参与 者 ， 它 们 各 自 根据 收 到 的 投票 来 决定 是 否 提 交 并 进行 执行 。 请 计算 这 
种 协议 需要 进行 几 轮 消息 发 送 以 及 消息 总 数 ， 并 将 它 和 集中 式 的 两 阶段 提交 协议 进行 比较 ， 
列 出 其 优 缺 点 。 (第 570 页 ) 

14.2 三 阶段 提交 协议 由 以 下 步骤 组 成 : 

第 1 阶段 ， 和 两 阶段 提交 协议 相同 。 

第 2 阶段 :协调 者 收集 所 有 投票 并 做 出 决定 。 如 果 决 定 是 No， 那 么 它 放 弃 事 务 并 通知 所 有 投 
Yes 票 的 参与 者 ， 如 果 决 定 是 Yes， 它 向 所 有 的 参与 者 发 送 preCommit 请 求 。 每 个 投 Yes 票 的 
参与 者 都 等 待 preCommit 或 doAbort 请 求 。 接 收 到 preCommit 请 求 后 它们 会 加 以 确认 ， 收 到 
doAbort 请 求 后 将 放弃 事务 。 

第 3 阶段 ， 协 调 者 收集 确认 消息 。 一 旦 收集 到 所 有 的 确认 ， 它 就 提交 事务 并 且 向 参与 者 发 送 
doCommit 请 求 。 每 个 参与 者 等 待 doCommit 请 求 ， 该 请 求 到 来 后 就 提交 事务 。 

假设 通信 没有 故障 ， 请 阐述 上 面 的 协议 是 如 何 避 免 参与 者 在 不 确定 状态 下 的 延 时 (由 于 协调 
者 或 参与 者 出 现 故 障 ) ? (第 573 页 ) 

14.3 试 解释 两 阶段 提交 协议 如 何 保证 储 套 事务 的 顶层 事务 一 旦 成 功 提 交 ， 那 么 所 有 正确 的 后 代 事 
务 都 能 提交 或 放弃 。 (第 574 页 ) 

14.4 请 给 出 两 个 分 布 式 事务 的 交错 执行 在 每 个 服务 器 上 都 是 串 行 的 ， 但 是 在 全 局 上 不 是 串 行 的 例 
子 。 (第 578 页 ) 

14.5 图 14-4 中 定义 的 getDecision 函 数 仅 由 协调 者 提供 。 请 定义 一 个 新 的 getDecision 罚 数 ， 该 函数 
在 协调 者 不 可 用 时 ， 由 参与 者 提供 并 且 被 其 他 需要 获得 决议 的 参与 者 使 用 。 
假设 每 个 参与 者 都 可 以 对 其 他 参与 者 调用 getDecision 国 数 ， 那 么 这 样 是 否 能 够 解决 不 确定 状 
态 引 起 的 延 时 间 题 ? 请 解释 你 的 答案 。 为 了 支持 上 面 的 通信 ， 协 调 者 在 两 阶段 提交 协议 的 什 


么 时 刻 将 所 有 参与 者 的 标识 符 通知 给 每 个 参与 者 ? (第 5$70 页 ) 
14.6 扩展 两 阶段 加 锁 的 定义 来 支持 分 布 式 事务 ， 解 释 为 什么 本 地 使 用 严格 的 两 阶段 加 锁 就 能 够 保 
证 分 布 式 事务 的 串 行 化 ? (第 578 页 ， 第 13 章 ) 
14.7 假设 系统 使 用 严格 的 两 阶段 加 锁 方 法 ， 试 描述 两 阶段 提交 协议 和 每 个 服务 器 的 并 发 控制 之 间 
的 关系 。 分 布 式 死 锁 检测 如 何 实现 ? (第 570 页 ， 第 578 页 ) 
14.8 一 个 服务 器 用 时 间 蕉 排序 进行 本 地 并 发 控制 。 在 参与 分 布 式 事务 处 理 时 需要 做 哪些 变化 ? 在 
什么 条 件 下 ， 两 阶段 提交 协议 可 以 不 必用 时 间 戳 排序 。 (第 570 页 ， 第 579 页 ) 


14.9 请 考虑 分 布 式 乐观 并 发 控制 ， 其 中 每 个 服务 器 在 本 地 顺序 ( 即 一 次 仅 有 一 个 事务 在 验证 和 更 
新 阶段 ) 使 用 向 后 验证 ， 请 考虑 练习 14.4 答 案 所 涉及 的 情况 。 试 描述 两 个 并 发 事务 试图 同时 


提交 时 的 所 有 可 能 情况 。 服 务 器 采用 并 行 验证 时 处 理 有 何不 同 ? (第 13 章 ， 第 580 页 ) 
14.10 一 个 集中 式 全 局 死 锁 检测 器 收集 并 合并 所 有 的 局 部 等 待 图 。 请 给 出 一 个 例子 ， 解 释 在 死 锁 
检测 过 程 中 ， 当 一 个 死 锁 环 路 中 的 等 待 事务 放 弃 后 ， 怎 样 检 测 到 假死 锁 。 (第 583 页 ) 
14.11 考虑 无 优先 级 的 边 追 逐 算法 ， 请 用 例子 说 明 它 可 能 检测 出 假死 锁 。 (第 584 页 ) 


14.12 一 个 服务 器 管理 对 象 a1, a;, …, a,， 它 向 客户 提供 下 面 两 个 操作 : 





3 4 


Read(D) 返 回 对 象 & 的 值 

Write(i, Value) 将 值 Value 赋 给 对 象 a， 

事务 T、U 和 V 的 定义 如 下 : 

T: x= Read(i); Write( j, 44); 

U: Write(li, 55); Write( j, 66); 

V: Write(k, 77); Write(k, 88); 

试 描述 在 使 用 严格 两 阶段 加 锁 ， 并 且 U 在 T 之 前 访问 a; 和 a 的 情况 下 ， 这 3 个 事务 写 日 志文 件 
的 情况 。 请 描述 服务 器 在 崩溃 后 被 替换 时 , 恢复 管理 器 如 何 利 用 日 志文 件 中 的 内 容 来 恢复 T、 








U 和 V 的 执行 效果 。 阅 述 日 志文 件 中 提交 记录 次 序 的 重要 性 。 (第 590 一 592 页 ) 
14.13 向 日 志文 件 追 加 记录 是 原子 操作 ， 但 是 追加 来 自 不 同事 务 的 记录 操作 可 能 是 相互 交错 的 。 
请 阐述 这 种 交错 对 练习 14.12 的 答案 影响 。 (第 590 一 592 页 ) 
14.14 练习 14.12 中 的 事务 IT、U 和 V 使 用 严格 两 阶段 加 锁 ， 进 行 的 交错 操作 如 下 ; 
T U V 
x= Read(2); 
Write(k, 77); 
Write(li, 55) 
Write( j, 44) 
Write(k, 88) 
Write( j, 66) 





假设 恢复 管理 器 在 每 次 写 操作 后 就 立即 将 记录 写 到 日 志文 件 中 (而 不 是 等 到 事务 结束 后 再 
写 人 )， 试 描述 日 志文 件 中 有 关 T、U 和 V 的 日 志 记 录 的 信息 。 这 种 立即 写 日 志 的 方法 是 否 会 
影响 恢复 过 程 的 正确 性 ? 这 种 方法 的 优 缺 点 如 何 ? (第 590 一 592 页 ) 

14.15 事务 T 和 0 的 并 发 控制 利用 时 间 恰 方法， 事务 U 的 时 间 戳 晚 于 事务 T， 因 此 必须 等 待 T 提 交 。 
试 描述 写 入 日 志文 件 中 的 有 关 事 务 T 和 U 的 信息 。 解 释 为 什么 日 志文 件 中 的 提交 记录 必须 按 
时 间 戳 顺序 排列 ? 考虑 下 面 两 种 情况 下 服务 器 如 何 恢复 : (1) 在 两 个 事务 提交 之 间 服 务 器 
崩溃 ， (2) 服务 器 在 两 个 事务 提交 后 崩溃 。 











工 V 

X= Read(i); 
Wrhrite(i, 55); 
Write( j, 66); 

Write( j, 44); 
Commit 

Commit 

请 解释 在 使 用 时 间 惟 方法 时 提前 写 日 志 的 优 缺 点 。 (第 595 页 ) 


14.16 练习 14.15 中 的 事务 T 和 U 采 用 乐观 并 发 控制 ， 并 使 用 向 后 验证 ， 验 证 失败 时 重新 运行 事务 。 
请 描述 写 人 日 志文 件 中 的 这 两 个 事务 的 信息 ， 解 释 为 什么 日 志文 件 中 的 提交 记录 必须 按 事 
务 号 排列 ? 在 日 志文 件 中 的 已 提交 事务 的 写 集合 是 怎样 的 ? (第 590 一 592 页 ) 
14.17 假设 事务 的 协调 者 在 意图 列表 记录 到 日 志文 件 之 后 ， 但 是 尚未 记录 参与 者 列表 或 尚未 发 送 
canCommit 请 求 之 前 崩溃 。 请 描述 参与 者 如 何 解 决 这 种 情况 ， 协 调 者 如 何 进行 恢复 ?试问 在 
记录 意图 列表 之 前 先 记 录 参 与 者 列表 是 否 更 好 ? (第 596 页 ) 





第 15 章 复 人 制 


在 分 布 式 系统 中 ， 复 制 是 提供 高 可 用 性 和 容错 的 关键 技术 。 随 着 受 移动 计算 的 发 展 和 与 此 相 
关 的 断 链 操作 频繁 发 生 ， 高 可 用 性 日 益 引 起 人 们 广泛 的 兴趣 。 容 错 在 安全 是 关键 要 素 的 系统 和 其 
他 重要 系统 中 通常 作为 一 项 必 备 的 服务 被 提供 。 

本 章 的 第 一 部 分 将 讨论 这 样 一 个 系统 ， 它 的 每 次 操作 都 作用 于 复制 对 象 的 集合 。 本 章 开始 描 
述 了 一 个 应 用 复制 的 服务 的 体系 结构 组 件 和 系统 模型 。 我 们 还 描述 了 对 容错 服务 至 关 重要 的 组 成 
员 关 系 管理 ， 它 是 组 通信 的 一 部 分 。 

本 章 接 着 将 描述 实现 容错 的 各 种 方法 。 首 先 将 介绍 线性 化 和 顺序 一 致 性 的 正确 性 标准 。 接 下 
来 会 介绍 并 讨论 如 下 两 种 方法 ;被动 ( 主 备份 ) 复制 (客户 与 单个 副本 进行 通信 ) ， 主 动 复制 ( 客 
户 通过 组 播 与 所 有 副本 进行 通信 ) 。 

本 章 对 提供 高 可 用 性 服务 的 三 种 系统 进行 了 实例 研究 。 在 gossip 和 Bayou 体 系 结构 中 ， 共 享 数 
据 各 个 副本 之 间 的 更 新 操作 是 延 时 传播 的 。 在 Bayou 中 ， 为 了 增强 一 致 性 ， 使 用 了 操作 变换 技术 。 
Coda 是 高 可 用 文件 系统 的 一 个 例子 。 

本 章 的 结尾 部 分 涉及 复制 对 象 上 的 事务 (操作 的 顺序 ) ， 详 细 阐 述 了 复制 事务 系统 的 体系 结构 
以 及 这 些 系 统 是 如 何 处 理 服 务 器 故障 和 网 络 分 区 的 。 


15.1 简介 


本 章 将 研究 数据 的 复制 ， 即 如 何在 多 个 计算 机 中 进行 数据 副本 的 维护 。 由 于 复制 能 够 增强 性 
能 ， 提 供 高 可 用 性 和 容错 能 力 ， 因 此 它 是 保证 分 布 式 系统 有 效 性 的 一 个 关键 技术 。 复 制 技术 的 使 
用 非常 广泛 。 例 如 ，Web 服 务 器 的 资源 在 浏览 器 上 的 缓存 和 在 Web 代 理 服 务 器 上 的 缓存 都 属于 复制 
的 一 种 形式 ， 因 为 缓存 中 的 数据 和 服务 器 中 的 数据 彼此 互 为 副本 。 第 9 章 介绍 的 DNS 名 字 服 务 维护 
关于 计算 机 的 名 字 一 属性 映射 的 副本 ， 它 是 依赖 于 在 因特网 上 每 天 对 服务 进行 访问 实现 的 。 

复制 是 一 种 增强 服务 的 技术 。 进 行 复制 的 动机 包括 改善 服务 性 能 ， 提 高 可 用 性 ， 或 者 增强 容 
错 能 力 。 

增强 性 能 : 迄今 为 止 ， 客 户 和 服务 器 的 数据 缓存 是 增强 性 能 的 常用 手段 。 例 如 ， 第 2 章 曾经 提 
到 ， 浏 览 器 和 代理 服务 器 都 对 Web 资 源 进行 缓存 以 避免 因为 从 原始 服务 器 上 读 取 数 据 而 造成 延迟 。 
进而 ， 数 据 有 时 还 在 同一 个 域 中 的 多 个 原始 服务 器 之 间 透 明 地 复制 。 通 过 将 所 有 服务 器 IP 地 址 绑 
定 到 站 点 的 DNS 名 字 (如 www.aWebSite.Org)， 人 负载 便 可 以 在 服务 器 之 间 得 以 共享 。 当 解析 
www.aWebSite.org 域 名 时 ， 将 以 循环 方式 返回 几 个 服务 器 IP 地 址 中 的 一 个 (参见 9.2.3 节 )。 不 可 变 
数据 的 复制 是 很 简单 的 ， 它 仅 需 花费 极 小 的 代价 即 可 提高 性 能 。 变 化 数据 (如 Web 数 据 ) 的 复制 
需要 额外 的 开销 ， 例 如 设计 有 关 ， 来 确保 客户 接收 最 新 数据 (参见 2.2.5 节 )。 因 此 ， 作 为 性 能 增强 
的 一 项 技术 ， 复制 在 有 效 性 方面 有 一 些 限制 。 

提高 可 用 性 : 用 户 要 求 服务 是 高 度 可 用 的 ， 也 就 是 说 ， 在 合理 的 响应 时 间 内 获得 服务 的 次 数 
所 占 的 比例 应 该 接近 100%。 除 了 由 于 悲观 并 发 控制 冲突 (数据 加 锁 ) 等 原因 造成 的 延迟 外 ， 与 高 
可 用 性 有 关 的 因素 有 : 

。 服 务 器 故障 。 

*。 网 络 分 区 和 断 链 操作 : 通信 断 链 通常 是 不 可 预计 的 ， 也 可 能 是 用 户 移动 性 带 来 的 副作用 。 





384 萌 15 全 











对 前 一 个 问题 ， 复 制 是 一 项 在 服务 器 故障 的 情况 下 能 够 自动 维护 数据 的 可 用 性 的 技术 。 如 果 
数据 被 复制 到 两 个 或 者 多 个 不 受 对 方 故障 干扰 的 服务 器 上 ， 那 么 ， 客 户 软件 就 可 能 在 默认 服务 器 
错误 或 者 不 可 访问 的 情况 下 ， 通 过 其 他 备用 服务 器 获取 数据 。 这 就 是 说 ， 通 过 复制 服务 器 数据 ， 
服务 可 用 时 间 的 比率 就 能 够 增加 。 如 果 n 个 服务 器 中 的 每 一 个 都 有 独立 的 发 生 故 障 概率 或 者 不 可 访 
问 概率 P， 那 么 在 每 个 服务 器 上 保存 的 对 象 的 可 用 性 概率 就 是 : 

1 一 概率 (所 有 管理 器 故障 或 不 可 用 )= 1 一 p” 

例如 ， 有 两 个 服务 器 ， 在 给 定 的 时 间 段 内 任何 一 个 服务 器 出 故障 的 概率 是 5%， 那 么 其 可 用 性 
概率 就 是 1 一 0.05? = 1 一 0.0025=99.75%。 缓 冲 系统 和 服务 器 复制 的 一 个 重要 区 别 就 是 缓冲 并 不 一 定 
保存 全 部 对 象 (如 文件 ) 集合 。 因 而 缓冲 在 应 用 层次 上 不 一 定 能 够 增强 可 用 性 ， 因 为 用 户 需要 的 
文件 可 能 没有 被 缓存 。 

网 络 分 区 〈 参 见 第 12.1 节 ) 和 断 链 操作 是 影响 高 可 用 性 的 第 二 个 因素 。 移 动用 户 在 移动 过 程 中 ， 
可 能 有 意 或 无 意 地 将 计算 机 从 无 线 网 络 中 断 开 。 例 如 ， 一 个 乘坐 火车 的 用 户 ， 他 的 笔记 本 电脑 可 
能 无 法 上 网 (无 线 网 络 可 能 会 中 断 ， 或 者 可 能 没有 无 线 上 网 功能 )。 为 了 在 这 种 环境 下 工作 (这 被 
称 为 断 链 工 作 或 者 断 链 操作 )， 用 户 经 常 将 使 用 率 高 的 数据 (如 共享 日 记 的 目录 ) 从 他 们 平时 的 应 
用 环境 中 复制 到 笔记 本 电脑 内 。 但 是 在 断 链 期 间 ， 总 是 存在 一 个 关于 可 用 性 的 权衡 ， 当 用 户 查 阅 
或 更 新 日 记 时 ， 这 些 数据 可 能 正在 被 其 他 人 阅读 或 修改 。 例 如 ， 他 们 可 能 把 面谈 安排 在 某 个 时 间 
段 ， 但 这 个 时 间 段 其 实 已 经 被 占用 了 。 断 链 工作 仅 在 用 户 (或 代表 用 户 的 应 用 程序 ) 能 够 解决 这 
种 过 期 数据 、 以 后 能 够 解决 由 此 导致 的 所 有 冲突 时 才 有 效 。 

容错 性 : 高 可 用 性 数据 不 一 定 是 绝对 正确 的 数据 。 例 如 ， 它 们 可 能 已 经 过 时 ， 或 者 两 个 在 网 
络 分 区 不 同 地 方 的 用 户 进行 了 有 冲突 的 更 新 操作 ， 这 里 的 冲突 是 需要 解决 的 。 相 反 地 ， 一 个 容错 
服务 在 一 定数 量 和 类 型 的 故障 范围 内 ， 总 能 确保 严格 正确 的 行为 。 这 里 的 正确 性 关注 的 是 提供 给 
客户 的 数据 是 否 最 新 以 及 客户 对 数据 的 操作 的 结果 。 正 确 性 有 时 也 考虑 服务 的 响应 时 间 ， 例 如 在 
航空 控制 系统 中 ， 必 须 在 短 时 间 内 获得 正确 数据 。 

在 计算 机 之 间 复 制 数据 和 功能 这 一 用 于 高 可 用 性 的 基本 技术 同样 可 用 来 实现 容错 。 如 果 
f+ 1 个 服务 器 中 有 至 多 /个 服务 器 崩溃 ， 那 么 从 理论 上 讲 至 少 还 有 一 个 服务 器 能 够 提供 服务 。 如 果 
至 多 /个 服务 器 会 发 生 拜 占 庭 故 障 ， 那 么 理论 上 21 + 1 个 服务 器 能 够 通过 正确 的 服务 器 进行 投票 ， 找 
到 故障 服务 器 (其 可 能 提供 混乱 值 )， 从 而 提供 正确 的 服务 。 但 是 容错 性 要 比 这 里 给 出 的 简单 描述 
复杂 。 系 统 必须 处 理 其 组 件 之 间 的 协调 来 精确 地 处 理 任何 时 间 都 可 能 发 生 的 故障 ， 以 保证 正确 性 。 

复制 延明 性 是 数据 复制 的 常见 需求 。 也 就 是 说 ， 客 户 通常 并 不 需要 知道 存在 多 个 物理 拷贝 。 
客户 关心 的 是 ， 数 据 组 织 成 独立 的 逻辑 对 象 (或 对 象 ) ， 当 需要 执行 一 个 操作 时 ， 他 们 仅 对 其 中 的 
一 项 进行 操作 。 进 而 ， 客 户 期 望 操作 仅仅 返回 一 个 值 的 集合 ， 而 不 管事 实 上 的 操作 可 能 是 针对 一 
个 以 上 的 物理 拷贝 进行 的 。 

数据 复制 的 另 一 个 常见 需求 是 一 致 性 ， 一 致 性 强度 在 不 同 应 用 中 会 有 所 不 同 ， 它 主要 关注 针 
对 一 个 复制 对 象 集合 的 操作 必须 满足 这 些 对 象 的 正确 性 要 求 。 

我 们 看 到 在 日 记 的 例子 中 ， 断 链 数据 操作 可 能 造成 数据 (至少 是 暂时 的 ) 不 一 致 。 但 是 当 客 
户 保持 连接 时 ， 如 果 不 同 的 客户 (使 用 数据 的 不 同 物理 副本 ) 对 同一 逻辑 对 象 发 出 请 求 ， 但 获取 
了 不 一 致 的 数据 ， 这 通常 是 不 可 接受 的 。 换 言 之 ， 对 应 用 正确 性 的 破坏 是 不 可 接受 的 。 

以 下 我 们 将 考虑 在 利用 复制 数据 保证 高 可 用 性 和 容错 性 服务 时 的 更 多 细节 问题 。 我 们 还 要 研究 
一 些 处 理 这些 问 题 的 标准 的 解决 方案 和 技术 。 首 先 ， 第 15.2 节 至 15.4 节 将 描述 基于 共享 数据 的 客户 
调用 。 第 15.2 节 给 出 一 个 管理 复制 数据 的 通用 体系 结构 并 介绍 作为 重要 工具 的 组 通信 。 组 通信 对 于 
实现 容错 极为 有 用 ， 它 是 15.3 节 的 主题 。 第 15.4 节 阐述 各 种 高 可 用 技术 ， 包 括 断 链 操作 。15.4 节 还 
包括 了 对 gossip 体 系 结构 、Bayou 和 Coda 文 件 系统 的 实例 研究 。15.5 节 将 介绍 如 何在 复制 数据 上 进行 
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事务 处 理 。 正 如 第 13 章 和 第 14 章 所 解释 的 ， 事 务 处 理 是 由 一 系列 操作 ， 而 不 是 单个 的 操作 组 成 的 。 


15.2 系统 模型 和 组 通信 


我 们 系统 中 的 数据 是 由 对 象 集合 组 成 的 。 一 个 “对 象 ” 可 以 是 一 个 文件 , 或 者 是 一 个 Java 对 象 。 
每 一 个 运 辑 对 象 是 由 若干 称 为 副本 的 物理 拷贝 组 成 的 集合 实现 的 。 副 本 是 物理 对 象 ， 每 一 个 副本 
存储 在 某 台 计算 机 上 ， 这 些 副 本 上 的 数据 和 行为 在 系统 操作 下 遵循 某 种 程度 的 一 致 性 。 给 定 对 象 
的 副本 并 不 一 定 完 全 相同 ， 至 少 不 必 在 任何 的 时 间 点 上 都 要 求 一 样 。 一 些 副 本 可 能 已 经 接收 了 更 
新 的 数据 ， 而 另 一 些 副 本 还 没有 收 到 更 新 数据 。 

本 节 先 给 出 一 个 用 来 管理 副本 的 通用 系统 模型 ， 然 后 描述 组 通信 系统 。 在 通过 复制 达到 容错 
的 情况 下 ， 组 通信 是 非常 有 用 的 。 
15.2.1 系统 模型 

我 们 假定 一 个 异步 系统 中 的 进程 发 生 故 障 的 唯一 原因 是 崩溃 。 我 们 的 默认 假设 是 不 会 发 生 网 
络 分 区 ， 但 是 我 们 也 考虑 出 现 网 络 分 区 时 会 发 生 的 情况 。 我 们 使 用 故障 检测 器 来 获得 可 靠 、 全 序 
的 组 播 ， 但 是 网 络 分 区 使 得 建立 故障 检测 器 变 得 更 困难 。 

从 一 般 性 方面 考虑 ， 体 系 结构 组 件 是 通过 其 功能 来 描述 的 ， 但 不 意味 着 每 项 功能 必须 用 不 同 
的 进程 (或 者 硬件 ) 来 实现 。 模 型 中 的 副本 由 不 同 的 副本 管理 器 (RM) 来 管理 ( 见 图 15-1)。 副 
本 管理 器 是 包含 了 特定 计算 机 上 的 副本 ， 并 且 直 接 操 作 这 些 副本 的 组 件 。 该 模型 可 以 在 客户 一 服务 
器 的 环境 中 应 用 ， 此 时 ， 一 个 副本 管理 器 就 是 一 个 服务 器 。 我 们 有 时 简单 地 称 副本 管理 器 为 服务 
器 。 同 样 的 ， 该 模型 也 可 以 应 用 到 一 个 应 用 程序 ， 在 这 种 情况 下 ， 应 用 进程 既是 客户 又 是 副本 管 





理 器 。 例 如 ， 乘 火车 用 户 的 笔记 本 电脑 请 求 和 应 答 
包含 一 个 应 用 ， 它 的 作用 相当 于 用 户 晶 | 
记 的 副本 管理 器 。 wh 
我 们 应 该 始终 要 求 一 个 副本 管理 器 ”客户 和 
对 于 它 的 副本 的 操作 是 可 恢复 的 。 因 此 
我 们 可 以 假定 ， 如 果 操 作 中 途 失 败 了 ， -一 | 


副本 管理 器 也 不 会 留 下 不 一 致 的 结果 。 CE 全 
态 机 [Lamport 1978，Schneider 1990]。 这 样 的 一 个 副本 管理 器 对 其 副本 实行 原子 性 操作 (不 可 分 
操作 ) ， 其 执行 等 价 于 以 某 种 严格 顺序 执行 操作 。 此 外 ， 副 本 数据 的 状态 是 其 初始 状态 的 一 个 确定 
性 函数 ， 由 在 副本 数据 上 的 操作 次 序 决定 。 其 他 外 部 因素 ， 如 时 钟 读 取 或 传感器 读 取 ， 不 会 对 其 
状态 值 产生 影响 。 如 果 没 有 这 个 假定 ， 在 独立 接收 更 新 操作 的 副本 管理 器 之 间 建 立 一 致 性 是 不 可 
能 做 到 的 。 系 统 只 能 决定 在 所 有 副本 管理 器 上 应 用 什么 样 的 操作 和 它们 的 次 序 一 一 它 不 会 在 再 次 产 
生 非 确定 的 影响 。 这 个 假设 意味 着 服务 器 不 可 能 是 多 线程 的 。 

在 不 指明 的 情况 下 ， 每 个 副本 管理 器 为 每 一 个 对 象 都 维护 一 个 副本 。 但 在 一 般 情况 下 ， 不 同 
对 象 的 副本 由 不 同 的 副本 管理 器 来 维护 。 例 如 ， 一 个 网 络 上 的 客户 可 能 经 常 需要 某 个 对 象 ， 而 另 
一 个 网 络 上 的 客户 却 需 要 另 一 个 对 象 。 相 互 复制 这 些 对 象 到 其 他 的 网 络 管理 器 上 就 没什么 好 处 。 

副本 管理 器 的 集合 可 以 是 静态 的 ， 也 可 以 是 动态 的 。 在 动态 系统 中 ， 新 的 副本 管理 器 可 能 不 
断 出 现 (例如 ， 另 一 个 秘书 拷贝 一 份 日 记 到 他 的 笔记 本 电脑 ) ， 而 在 静态 系统 中 这 是 不 允许 的 。 
在 动态 系统 中 ， 副 本 管理 器 可 能 崩溃， 那么 它们 被 认为 离开 了 这 个 系统 (尽管 它们 可 被 替换 )。 在 
静态 系统 中 ， 副 本 管理 器 不 会 崩溃 (崩溃 意味 着 将 永远 不 会 执行 下 一 步 )， 但 它们 可 能 将 停止 操作 
任意 长 一 段 时 间 。 我 们 将 在 15.4.2 节 讨论 故障 问题 。 
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图 15-1 给 出 了 副本 管理 的 一 般 模 型 。 副 本 管理 器 集合 给 客户 提供 某 种 服务 。 客 户 得 到 一 个 允 
许 它们 访问 对 象 (例如 ， 日 记 或 银行 账户 ) 的 服务 ， 而 这 个 对 象 其 实 复制 到 了 管理 器 上 。 客 户 每 
次 请 求 一 系列 的 操作 一 一 调用 一 个 或 多 个 对 象 。 一 个 操作 涉及 读 对 象 和 更 新 对 象 。 不 包含 更 新 操作 
的 请 求 称 作 只 读 请 求 ， 包 含 更 新 操作 的 请 求 称 作 更 新 请 求 (更 新 请 求 也 可 能 包含 读 操 作 )。 

每 个 客户 的 请 求 先 由 一 个 被 称 为 前 端 (FE) 的 组 件 处 理 。 前 端的 作用 是 通过 消息 传递 与 多 个 
副本 管理 器 进行 通信 ， 而 不 是 直接 让 客户 进行 通信 。 这 是 保证 复制 透明 性 的 一 种 手段 。 前 端 可 以 
在 客户 进程 的 地 址 空间 内 实现 ， 也 可 以 实现 成 一 个 独立 的 进程 。 

副本 对 象 上 的 一 个 操作 通常 涉及 五 个 阶段 [Wiesmann et al. 2000]。 对 于 不 同 的 系统 ， 每 一 阶 
段 的 动作 都 不 一 样 ， 下 面 的 两 节 会 做 进一步 的 说 明 。 例 如 ， 一 个 支持 断 链 操作 的 服务 行为 与 支持 
容错 的 服务 行为 是 不 同 的 。 这 些 阶段 分 别 是 : 

前 端 将 请 求 传 给 一 个 或 多 个 副本 管理 器 。 一 种 可 能 是 前 端 和 某 个 副本 管理 器 通信 ， 这 

个 管理 器 再 和 其 他 副本 管理 器 通信 。 另 一 种 可 能 就 是 前 端 将 请 求 组 播 到 各 个 副本 管理 器 。 

协调 : 副本 管理 器 首先 进行 协调 以 保证 执行 的 一 臻 性。 如果 需要 的 话 ， 在 这 个 阶段 ， 它 们 将 
就 是 否 执行 请 求 而 达成 一 致 (如果 这 一 阶段 出 现 故 障 ， 请 求 将 不 会 被 执行 )。 副 本 管理 器 同时 决定 
该 请 求 相对 于 其 他 请 求 的 次 序 。12.4.3 节 中 为 组 播 定 义 的 所 有 排序 类 型 同样 适用 于 请 求 处 理 ， 这 里 
我 们 再 次 简 述 一 下 这 些 排序 类 型 : 

*FIFO 序 : 如 果 前 端 发 送 请 求 "， 然 后 发 送 请 求 " ， 那 么 任何 正确 的 副本 管理 器 在 处 理 r* 之 前 先 

处 理 r。 

。 因 果 序 : 如 果 请 求 r 在 请 求 r"` 之 前 发 生 ， 那 么 任何 正确 的 副本 管理 器 在 处 理 之 前 先 处 理 r。 

。 全 序 : 如 果 一 个 正确 的 副本 管理 器 在 处 理 请 求 r* 之 前 处 理 请求 r， 那 么 任何 正人 确 的 副本 管理 器 

在 处 理 r" 之 前 先 处 理 r。 

大 多 数 应 用 需要 FIFO 序 。 我 们 将 在 下 面 两 节 中 讨论 对 因果 序 、 全 序 、 混 合 序 的 需求 ， 混 合 序 
是 指 既 有 FIFO 序 又 有 因果 序 或 是 既 有 因果 序 又 有 全 序 。 | 

执行 ， 副本 管理 器 执行 请 求 ， 包 括 临时 请 求 ， 这 种 请 求 执行 的 效果 是 可 以 去 除 的 。 

协定 : 副本 管理 器 对 于 要 提交 的 请 求 的 影响 达成 一 致 。 例 如 ， 在 这 个 阶段 ， 在 一 个 事务 系统 
中 副本 管理 器 可 共同 决定 是 放弃 还 是 提交 事务 。 

响应 : 一 个 或 多 个 副本 管理 器 响应 前 端 。 在 某 些 系统 中 ， 只 有 一 个 副本 管理 器 响应 前 端 。 在 
另外 一 些 系 统 中 ， 前 端 接收 一 组 副本 管理 器 的 应 答 ， 然 后 它 选 择 或 合成 一 个 单独 的 应 答 返回 给 客 
户 。 例 如 ， 如 果 目 标 是 保证 高 可 用 性 ， 那 么 它 将 第 一 个 到 达 的 应 答 返 回 给 用 户 。 如 果 目 标 是 屏蔽 
拜占庭 故障 ， 那 么 它 需要 将 大 多 数 副 本 管理 器 提供 的 应 答 传送 给 客户 。 

不 同 的 系统 可 以 选择 对 各 个 阶段 进行 不 同 的 排序 ， 也 可 以 选择 它们 的 内 容 。 例 如 ， 在 支持 断 
链 操作 的 系统 中 ， 尽 早 将 应 答 反 馈 给 客户 〈 比 如 用 户 笔记 本 电脑 的 应 用 ) 是 非常 重要 的 。 用 户 并 
不 希望 一 直 等 到 笔记 本 电脑 的 副本 管理 器 和 办 公 室 里 的 副本 管理 器 能 够 协调 。 相 比 之 下 ， 在 一 个 
容错 系统 中 ， 在 结果 的 正确 性 得 到 保证 以 前 将 不 会 把 应 答 给 客户 。 


15.2.2 组 通信 


12.4 节 讨论 了 组 播 通信 ， 因 为 进程 组 是 组 播 消 息 的 目标 ， 因 此 这 种 通信 也 称 作 组 通信 。 对 管理 
复制 数据 而 言 ， 组 是 非常 重要 的 。 在 其 他 一 些 系统 中 ， 如 果 进 程 通过 接收 和 处 理 相同 的 组 播 消 息 
来 合作 完成 共同 目标 ， 那 么 组 也 是 非常 重要 的 。 当 组 成 员 独 立地 接收 一 个 或 多 个 共同 消息 流 ， 特 
别 是 消息 包含 进程 要 独立 做 出 反应 的 事件 信息 时 ， 组 同样 非常 有 用 。 

12.4 节 将 组 成 员 定义 成 静态 的 ， 尽 管 组 成 员 可 能 崩溃 。 然 而 ， 实 际 系统 经 常 需要 动态 的 成 员 关 
系 : 在 系统 执行 过 程 中 ， 进 程 可 以 加 入 和 离开 组 。 例 如 ， 在 管理 复制 数据 的 服务 中 ， 用 户 可 以 加 
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入 或 删除 副本 管理 器 ， 一 个 副本 管理 器 也 可 能 由 于 崩溃 而 需要 从 组 的 操作 中 删除 。 组 通信 的 完整 
实现 除了 组 播 通 信 以 外 ， 还 需要 包含 一 个 
组 成 员 关 系 服务 来 管理 动态 组 成 员 关 系 。 

组 播 和 组 成 员 关系 管理 是 紧密 联系 的 。 
图 15-2 表 示 一 个 开放 的 组 ， 其 中 组 外 的 进 
程 向 该 组 发 送 消息 时 不 需要 知道 组 的 成 员 
关系 。 当 组 播 并 发 执行 时 ， 组 通信 服务 必 
须 管理 组 成 员 关系 的 变化 。 

组 成 员 关系 服务 的 作用 组 成 员 关系 服 
务 有 如 下 四 个 任务 : 

1) 为 组 成 员 关系 变更 提供 接口 ; 组 成 
员 关系 服务 提供 操作 来 创建 或 撤销 进程 组 、 

在 组 中 加 入 或 删除 某 个 进程 。 在 大 多 数 系 图 15-2 进程 组 提供 的 服务 
统 中 ， 一 个 进程 可 以 同时 属于 若干 组 。IP 组 播 正 是 如 此 。 

2) 实现 故障 检测 器 : 该 服务 有 一 个 故障 检测 器 ( 见 12.1 节 )。 该 服务 监测 组 中 各 成 员 ， 不 仅 考 
虑 进程 崩溃 的 情况 ， 还 考虑 由 于 通信 故障 而 不 可 达 的 情况 。 检 测 器 将 进程 标记 为 “可 疑 ” 或 “不 
可 疑 "。 服 务 利用 故障 检测 器 来 判断 组 成 员 的 关系 :如果 某 个 进程 被 怀疑 发 生 了 故障 或 是 不 可 达 时 ， 
就 将 其 从 成 员 列表 中 删 去 。 

3) 通告 组 成 员 关 系 变更 ; 当 一 个 进程 被 加 入 或 删除 时 (由 于 故障 或 进程 主动 脱离 组 ) ， 该 服 
务 将 向 组 成 员 通知 这 个 变化 情况 。 

4) 负责 组 地 址 的 扩展 ， 当 一 个 进程 组 播 消息 时 ， 它 提供 组 标识 符 ， 而 不 是 组 中 的 进程 列表 。 
为 了 传递 ,组 成 员 关 系 服务 将 标识 符 扩展 为 当前 组 成 员 关系 。 通过 控制 地 址 扩展 ， 服 务 能 够 协调 
成 员 变化 时 的 组 播 ， 即 它 能 够 一 致 地 决定 将 给 定 的 消息 传递 到 哪 ， 即 使 成 员 关系 在 传递 时 会 发 生 
变化 。 我 们 将 在 下 面 讨论 视图 同步 通信 。 

注意 ，IP 组 播 是 一 种 弱化 的 组 成 员 关 系 服务 ， 它 具有 组 成 员 关系 服务 的 某 些 〈 但 不 是 全 部 的 ) 
性 质 。 它 允许 进程 动态 地 进入 或 离开 组 ， 它 执行 地 址 扩展 ， 这 样 在 组 播 消息 时 ， 发 送 者 只 需要 提 
供 一 个 IP 组 播 地 址 作为 目的 地 址 。 但 是 IP 组 播 本 身 并 不 为 组 成 员 提供 当前 成 员 关系 的 信息 ， 并 且 组 
播 传递 也 不 会 随 着 成 员 关系 的 变化 而 调整 。 

如 果 系 统 自身 能 适应 进程 加 入 、 离 开 和 崩溃 的 情况 ， 那 么 它 (特别 是 容错 系统 ) 通常 会 要 求 
有 更 高 级 的 特性 ， 例 如 故障 检测 和 组 成 员 关系 变更 通知 等 。 一 个 完整 的 组 成 员 关系 服务 维护 组 视 
图 ， 即 由 进程 标识 符 标识 的 当前 组 成 员 的 列表 。 该 列表 是 有 序 的 ， 例 如 可 按照 成 员 加 入 组 的 顺序 
来 排序 。 当 进程 加 入 组 或 从 组 中 删除 时 ， 一 个 新 的 组 视图 就 产生 了 。 

非常 重要 的 一 点 是 ， 组 成 员 关 系 服务 可 能 因为 某 个 进程 处 于 “怀疑 ”状态 而 将 其 删除 ， 尽 管 
这 个 进程 可 能 还 未 崩溃 。 通 信 故 障 可 以 使 进程 变 得 不 可 达 ， 尽 管 它 仍 在 正常 执行 。 组 成 员 关系 服 
务 总 是 删除 这 样 的 进程 。 删 除 的 结果 是 ， 此 后 消息 将 不 再 发 送 给 这 个 进程 。 而 且 ， 在 一 个 封闭 组 
中 ， 如 果 这 个 进程 再 次 被 连接 ， 那 么 它 试图 发 送 的 消息 都 不 会 发 给 组 成 员 ， 这 个 进程 必须 重新 加 
入 这 个 组 (作为 自己 的 一 个 “新 生 ”"， 将 获取 新 的 标识 符 ) ， 或 放弃 它 的 操作 才能 改善 这 种 情况 。 

如 果 错误 地 怀疑 进程 并 进而 将 其 从 组 中 删除 ， 那 么 将 降低 组 的 有 效 性 。 组 不 得 不 负责 退出 的 进 
程 可 能 已 经 提供 的 可 靠 性 和 性 能 。 除 了 要 将 故障 检测 器 设计 得 尽 可 能 准确 ， 设 计 挑战 还 在 于 ， 要 保 
证 当 一 个 进程 被 错误 地 怀疑 时 ， 组 通信 也 不 会 异常 工作 。 

如 何 对 待 网 络 分 区 是 组 管理 服务 需要 重点 考虑 的 。 诸 如 路 由 器 等 网 络 组 件 的 断 链 或 故障 都 会 
使 一 个 进程 组 分 割 成 若干 个 子 组 ， 这 些 子 组 之 间 不 能 通信 。 组 管理 服务 分 为 两 类 ， 主 分 区 或 者 可 
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分 区 。 在 第 一 种 情况 下 ， 组 管理 服务 最 多 允许 网 络 分 区 中 有 一 个 子 组 (一 个 较 大 的 子 组 ) ， 其 他 进 
程 被 告知 挂 起 。 这 种 安排 非常 适合 于 进程 管理 重要 的 数据 以 及 各 子 组 之 间 的 不 一 致 的 代价 大 于 断 
链 操作 优点 的 情景 。 

另 一 方面 ， 在 某 些 情况 下 ， 两 个 或 更 多 的 子 组 继续 操作 是 可 接受 的 ， 一 个 可 分 区 的 组 成 员 关 
系 服务 就 是 这 样 。 例 如 ， 在 一 个 应 用 中 ， 用 户 召开 音频 或 视频 会 议 来 讨论 某 些 问题 ， 当 发 生 分 区 
时 两 个 或 更 多 的 子 组 成 员 之 间 进 行 独立 讨论 是 允许 的 。 当 分 区 修复 ， 各 子 组 又 连接 上 时 ， 它 们 可 
以 再 综合 它们 的 讨论 结果 。 

视图 传递 考虑 某 个 程序 员 的 任务 是 写 -一 个 应 用 ,这 个 应 用 在 一 组 进程 中 的 每 一 个 进程 上 运行 ， 
它 必 须 处 理 组 成 员 的 加 入 和 删除 。 程 序 员 需 要 知道 当 组 成 员 变更 时 ， 系 统 用 某 种 一 致 性 的 方法 来 
对 待 每 一 个 组 成 员 。 每 当 组 成 员 变 化 时 ， 如 果 程 序 员 不 能 在 本 地 就 如 何 响应 变更 做 出 决定 ， 而 不 
得 不 查询 其 他 的 组 成 员 的 状态 才能 做 出 决定 ， 那 么 这 种 方法 是 非常 策 拙 的 。 程 序 员工 作 的 难 易 取 
决 于 系统 能 够 确保 何 时 将 视图 传递 给 组 成 员 。 

对 于 每 个 组 g， 组 管理 服务 将 一 系列 的 视图 veo(g)，vi(g)，vz(g),… 传 递 给 组 的 每 个 进程 pEg。 例 
如 ， 一 个 视图 的 序列 可 以 是 vo(g) = (p), vi(g) = (p, p), vx(g) = (p)， 即 首先 p 加 入 一 个 空 组 ， 然 后 p" 加 
入 这 个 组 ， 接 着 p' 离 开 这 个 组 。 尽 管 可 能 会 同时 发 生 多 个 组 成 员 变 更 ， 例 如 某 个 进程 进入 组 时 另 一 
个 进程 离开 组 ， 但 是 ， 系 统 可 以 对 视图 强加 一 个 次 序 。 

如 果 当 组 成 员 关 系 发 生变 更 时 ， 一 个 成 员 将 新 的 成 员 关 系 告知 给 应 用 (和 进程 传递 组 播 消息 
类 似 ) ， 那 么 我 们 称 这 个 成 员 传递 了 视图 。 对 组 播 传递 ， 传 递 视图 和 接收 视图 是 截然 不 同 的 。 组 成 
员 关 系 协议 将 提出 的 视图 放 到 一 个 保留 队列 上 ， 直 到 所 有 现 有 的 组 成 员 同意 进行 传递 为 止 。 

如 果 在 事件 发 生 时 ，p 已 经 传递 了 视图 v(p) 但 是 还 没有 传递 下 一 个 视图 v*(g)， 我 们 称 一 个 事件 
发 生 在 进程 p 的 视图 v(p) 中 。 

视图 传递 有 如 下 一 些 基本 要 求 : 

“ 顺序， 如 果 一 个 进程 P 传 递 视图 v(g)， 然 后 传 视图 v'(g) ， 那 么 不 存在 这 样 的 进程 qzp， 它 在 

v (g) 之 前 传递 v(g)。 

。 完 整 性 : 如 果 进 程 p 传 递 视图 v(g)， 那 么 pEv(g)。 

“ 非 平 凡 性 : 如果 进程 q 加 入 到 一 个 组 中 ， 对 于 进程 pq 来 说 变 为 可 达 的 话 ， 那 么 最 终 q 总 是 在 

p 发 送 的 视图 中 。 同 样 的 ， 如 果 组 被 分 割 并 形成 分 区 并 且 分 区 仍然 存在 ， 那 么 最 终 任 何 一 个 

分 区 所 传递 的 视图 将 不 包含 其 他 分 区 中 的 进程 。 

通过 保证 在 不 同 的 进程 中 视图 变化 总 是 以 同样 的 次 序 发 生 ， 上 面 的 第 一 个 要 求 向 程序 员 提供 
一 致 性 保证 。 第 二 个 要 求 是 一 个 完整 性 检查 。 第 三 个 要 求 是 为 了 防止 平凡 的 解决 方案 。 例 如 ， 一 
个 组 成 员 关系 服务 不 管 进程 的 连接 性 如 何 ， 告 诉 每 一 个 进程 它 自己 在 这 个 组 中 并 没有 任何 作用 。 
非 平凡 性 条 件 表明 ， 如 果 两 个 已 经 加 入 了 同一 个 组 的 进程 能 进行 无 限期 的 通信 ， 那 么 它们 将 被 认 
为 是 该 组 的 成 员 。 同 样 的 ， 当 发 生 分 区 时 ， 组 成 员 关系 服务 应 该 最 终 反映 分 区 。 条 件 并 没有 说 明 
在 有 问题 的 间 欣 性 连接 时 应 如 何 处 理 组 成 员 关 系 服务 。 

视图 同步 的 组 通信 在 组 播 消息 传递 方面 ,视图 同步 的 组 通信 系统 除了 以 上 视图 传递 的 要 求 外 ， 
还 能 做 出 额外 的 保证 。 视 图 同步 的 组 播 通信 扩 展 了 第 12 章 讨论 的 可 靠 组 播 语义 ， 考 虑 到 了 组 视图 
的 动态 变化 。 为 了 简化 讨论 ， 我 们 只 考虑 不 发 生 分 区 的 情况 。 视 图 同步 的 组 通信 提供 的 保证 如 下 ; 

“协定 :正确 的 进程 传递 相同 序列 的 视图 (从 加 入 组 的 视图 开始 ) ， 并 且 在 任何 给 定 的 视图 中 

传递 同样 的 消息 集合 。 换 句 话说， 如 果 一 个 正确 的 进程 在 视图 v(g) 中 传递 了 消息 m， 那 么 所 

有 其 他 传递 m 的 正确 的 进程 都 在 视图 v(g) 中 传递 m。 

“ 完整 性 ， 如 果 一 个 正确 的 进程 p 传 递 消息 m， 那 么 它 不 会 再 传递 m， 而 且 ，pEgroup(m)， 并 和 且 

发 送 m 的 进程 处 于 p 传 递 m 的 视图 中 。 
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。 有 效 性 (封闭 组 ): 正确 进程 总 是 传递 它们 发 送 的 消息 。 如 果 系 统 在 向 进程 9 传递 消息 时 发 生 
了 故障 ， 那 么 它 将 传递 一 个 删除 了 q 的 视图 给 余下 的 进程 。 也 就 是 说 ， 设 p 是 一 个 正确 的 进程 ， 
它 在 视图 v(g) 中 传递 消息 m。 如 果 某 个 进程 gEv(g) 没 有 在 视图 v(g) 中 传递 m， 那 么 在 p 传 递 的 
下 一 个 视图 v'(g) 中 将 有 q Fv'(g)。 

考虑 一 个 具有 三 个 进程 p、q、r 的 组 (如 图 15-3 所 示 )。 假 设 p 在 视图 (p, q, r) 中 发 送 一 个 消息 m， 
p 发 送 完 消息 m 后 就 出 澳 了 ， 而 q 和 I 仍然 正确 运行 。 一 种 可 能 性 是 当 m 到 达 任 何其 他 的 进程 之 前 p 就 
崩溃 了 。 在 这 种 情况 下 ，q 和 rz 都 发 送 新 的 视图 (q, r)， 但 都 不 会 传递 消息 m (如 图 15-3a 所 示 )。 另 一 
种 可 能 性 是 当 pP 崩 省 时 ， 消 息 m 至 少 到 达 了 余下 的 两 个 未 崩溃 进程 中 的 一 个 。 此 时 q 和 zr 都 先 传递 消 
息 m， 然 后 传递 视图 (q, D (参见 图 15-3b)。 让 q 和 r 先 传递 视图 (q，D) 然 后 传递 m 是 不 允许 的 (参见 
图 15-3c) ， 因 为 那样 的 话 它们 将 传递 来 自己 经 出 现 故障 的 进程 的 消息 。 同 样 ， 两 个 进程 也 不 能 以 相 

反 的 次 序 传递 消息 和 新 视图 ( 见 图 15-3d)。 


; p 贿 证 
xs 
“和 X 四 
q ~ 
一 一 一 


视图 (p,q.n 视图 (qn 视图 (p.q 中 视图 (q.n 
a) 允许 b) 允许 
: PpP 崩 省 : P 凯 滥 
p ~ - p ~ 
qd ~ v q 一 
r 2 > r= - 
视图 (pq. 视图 (q.D 视图 (p, q, D 视图 (q, 
c) 不 允许 d) 不 允许 


图 15-3 组 通信 中 的 视图 同步 


在 一 个 视图 同步 系统 中 ， 新 视图 的 传递 在 概念 上 绘制 出 一 条 横 穿 系统 的 线 ， 每 一 个 被 传递 的 
消息 都 被 一 致 地 传递 到 线 的 一 端 或 另 一 端 。 这 样 ， 当 程序 员 传 递 一 个 新 的 视图 时 ， 他 只 需 根据 局 
部 的 消息 传递 和 视图 传递 事件 的 次 序 ， 就 能 推断 出 其 他 正确 进程 传递 的 消息 的 集合 。 

用 视图 同步 通信 来 进行 状态 转换 一 一 工作 状态 从 一 个 进程 组 的 当前 成 员 转 到 组 的 一 个 新 成 员 一 — 
可 以 说 明 视 图 同步 通信 的 用 处 。 例 如 ， 如 果 进 程 是 保存 日 记 状 态 的 副本 管理 器 ， 然 后 副本 管理 器 在 
加 入 组 时 ， 需 要 获得 日 记 的 当前 状态 。 然 而 当日 记 状态 被 捕获 的 同时 ， 日 记 同 时 被 更 新 了 。 副 本 管 
理 器 不 应 遗漏 任何 在 它 获 得 的 状态 中 没有 反映 出 来 的 更 新 销 息 ， 也 不 应 重新 使 用 已 经 反映 在 状态 中 
的 更 新 信息 (除非 这 些 更 新 是 宕 等 的 )。 

为 了 获得 这 种 状态 转换 ， 我 们 可 以 在 如 下 的 一 个 简单 的 方案 中 应 用 视图 同步 通信 。 当 第 一 个 包 
含 新 进程 的 视图 被 传递 时 ， 现 有 成 员 中 的 一 个 不 同 的 进程 (比如 最 早 的 一 个 ) 截获 了 它 的 状态 ， 将 
其 以 一 对 一 方式 发 送 给 新 的 成 员 并 且 挂 起 它 自身 的 执行 。 所 有 其 他 的 已 有 进程 也 都 暂停 它们 的 执行 
注意 ， 根 据 视 图 同步 通信 的 定义 ， 反 映 到 这 个 状态 中 的 更 新 集合 要 非常 明确 地 应 用 到 其 他 所 有 的 成 
员 。 当 新 进程 收 到 状态 后 会 集成 它 ， 然 后 组 播 一 个 “开始 ”消息 给 组 ， 这 时 所 有 的 进程 再 次 执行 

讨论 我 们 已 经 提出 的 视图 同步 的 组 通信 概念 是 “虚拟 同步 ”通信 范 型 的 -一 种 形式 。 这 个 范 型 
最 早 开 发 于 ISIS 系 统 中 [Birman 1993, Birman et al. 1991, Birman and Joseph 1987b]。Schiper 和 
Sandoz[1993] 描 述 了 一 个 获得 视图 同步 (他 们 称 做 原子 视图 ) 通信 的 协议 。 注 意 ， 组 成 员 关系 服务 
获得 了 共识 ， 它 这 样 做 并 不 违反 Fischer 等 人 [1985] 的 关于 不 可 能 性 的 理论 结果 。 就 像 我 们 将 在 
12.5.4 节 中 描述 的 那样 ， 系 统 可 通过 使 用 一 个 适当 的 故障 检测 器 来 巧妙 地 解决 这 个 问题 。 


a 
= 
kb 


个 
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Schiper 和 Sandoz 还 提供 了 一 个 统一 的 视图 同步 通信 版 本 。 在 这 个 版 本 中 ， 协 定 条 件 包括 了 进 
程 崩 浪 的 情况 。 对 于 组 播 通 信 的 统一 协定 也 是 相似 的 ， 这 已 在 12.4.2 节 中 描述 了 。 在 视图 同步 通信 
的 统一 版 本 中 ， 即 使 一 个 进程 在 它 传递 完 消息 后 月 澳 ， 所 有 正确 的 进程 也 会 在 同样 的 视图 中 传递 
这 个 消息 。 这 个 强大 的 保证 有 时 在 容错 应 用 中 很 有 用 ， 因 为 一 个 已 经 传递 了 消息 的 进程 在 崩溃 以 
前 可 能 对 外 部 的 世界 有 一 定 的 影响 。 出 于 同样 的 原因 ，Hadzilacos 和 Toueg[1994] 考 虑 了 在 第 12 章 
中 描述 的 可 靠 的 和 有 序 的 组 播 协议 的 统一 版 本 。 

V 系 统 [Cheriton and Zwaenepoel 1985] 是 第 一 个 支持 进程 组 的 系统 。 在 ISIS 后 ， 具 有 某 种 组 成 
员 关 系 服务 的 进程 组 开始 在 其 他 的 系统 中 开发 出 来 ， 这 包括 Horus[van Renesse et al. 1996] 和 
Totem[Moser et al. 1996] 以 及 Transis[Dolev and Malki.1996] 。 

针对 可 分 区 的 组 成 员 关 系 服务 ， 视 图 同步 也 有 其 相应 的 变种 ， 包 括 支 持 分 区 处 理 的 应 用 
[Babaoglu et al. 1998] 和 扩展 的 虚拟 同步 [Moser et al. 1994]。 

最 后 ，Cristian[1991b] 讨 论 了 用 于 同步 分 布 式 系统 的 组 成 员 关 系 服务 。 

对 象 组 对象 组 提供 了 针对 组 计算 的 一 个 面向 对 象 方法 。 一 个 对 象 组 是 一 个 对 象 的 集合 (通常 
是 同一 类 实例 )。 这 些 对 象 处 理 相同 的 调用 集合 ， 并 且 每 一 个 都 返回 响应 。 客 户 对 象 不 需要 知道 复 
制 。 它 们 调用 一 个 本 地 对 象 上 的 操作 ， 这 个 对 象 相 当 于 组 的 代理 ， 这 个 代理 使 用 组 通信 系统 给 对 
象 组 的 每 一 个 成 员 发 送 调用 。 

Electra[ Maffeis 1995] 是 一 个 兼容 CORBA 的 系统 ， 它 支持 对 象 组 。 一 个 Electra 组 可 以 衔接 到 任 
何 兼 容 CORBA 的 应 用 上 。Electra 最 早 建立 在 Horus 组 通信 系统 之 上 ， 用 Horus 来 管理 组 的 成 员 关系 
和 组 播 调用 。 在 “透明 模式 ”下 ， 本 地 代理 返回 第 一 个 可 用 响应 给 客户 对 象 。 在 “不 透明 ”模式 
下 ， 客 户 对 象 可 以 访问 所 有 组 成 员 返 回 的 响应 。Flectra 使 用 一 个 扩展 的 标准 CORBA ORB 接 口 ， 该 
接口 具有 创建 和 撤销 对 象 组 、 管 理 它们 的 成 员 的 功能 。 

Eternal[Moser et al. 1998] 和 对 象 组 服务 [Guerraoui et al. 1998] 也 为 组 对 象 提供 了 兼容 CORBA 
的 支持 。 


15.3 容错 服务 


本 节 讨 论 如 何 通 过 在 副本 管理 器 上 复制 数据 和 功能 来 提供 容错 服务 ， 即 即使 上 有 至 多 f 个 进程 
出 故障 还 能 提供 正确 的 服务 。 为 了 简单 起 见 ， 我 们 仍然 假定 通信 是 可 靠 的 ， 并 且 不 发 生 分 区 。 

假设 每 个 副本 管理 器 在 没有 崩溃 时 按照 它 管理 的 对 象 的 语义 规约 来 执行 。 例 如 ， 银 行 账户 的 
规约 包括 如 下 保证 : 在 银行 账户 间 转 账 的 资金 不 会 消失 ， 并且 只 有 存款 和 取款 会 影响 某 个 账户 的 
余额 。 

直观 上 ， 如 果 在 出 现 故障 情况 下 ， 服 务 还 能 保持 响应 或 客户 不 能 区 别 服务 是 实现 在 副本 数 
据 上 还 是 由 一 个 正确 的 副本 管理 器 提供 的 ， 那 么 基于 复制 的 服务 是 正确 的 。 我 们 必须 非常 仔细 
地 对 待 这 个 准则 。 否 则 ， 如 果 不 采取 相应 措施 ， 在 有 许多 副本 管理 器 时 ， 可 能 会 发 生 异常 一 - 即 
便 我 们 考虑 的 是 一 个 操作 而 不 是 一 个 事务 。 

考虑 一 个 简单 的 复制 系统 ， 其 中 两 个 副本 管理 器 分 别 位 于 计算 机 A 和 B 上 ， 它 们 都 维护 两 个 银 
行 账户 x 和 y 的 副本 。 客 户 在 本 地 的 副本 管理 器 上 读 取 和 更 新 账户 ， 如 果 本 地 副本 管理 器 出 现 故 障 ， 
就 尝试 使 用 另 一 个 管理 器 。 当 响应 完 客户 后 ， 副 本 管理 器 会 在 后 台 相互 传播 更 新 。 两 个 账户 初始 
余额 为 $0。 

客户 1 在 它 的 本 地 副本 管理 器 B 上 更 新 x 的 余额 为 $1， 然 后 试图 更 新 y 的 余额 为 $52， 但 是 发 现 B 
出 故障 了 。 客 户 1 因 此 将 更 新 应 用 在 A 上 。 现 在 客户 2 在 它 的 本 地 副本 管理 器 A 上 读 取 余额 ， 发 现 y 
有 $2， 然 后 发 现 x 是 $0 一 由 于 B 出 现 故 障 ，B 的 银行 账户 x 的 更 新 没有 传 过 来 。 这 种 情况 如 下 所 示 ， 
每 个 操作 被 标记 上 其 首次 发 生 时 所 处 的 计算 机 和 名。 另外， 操作 按 发 生 次 序 排列 : 
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客户 1: 客户 2: 


setBalancep(x. 1) 





setBalance,(y, 2) 
getBalance,(y)—2 
getBalance,(x)—0 





这 个 执行 不 符合 银行 账户 行为 的 规约 : 客户 2 如 果 读 到 了 y 的 余额 为 $92， 而 y 的 余额 是 在 x 余额 
更 新 之 后 更 新 的 话 ， 那 它 应 该 读 到 x 的 余额 为 $41。 如 果 银 行 账户 是 由 一 台 服 务 器 实现 的 话 ， 那 么 这 
种 复制 情况 下 的 异常 将 不 会 发 生 。 我 们 可 以 构建 一 个 管理 副本 对 象 的 系统 ， 它 不 会 因为 我 们 在 例 
子 中 采用 了 简单 协议 而 发 生 异常 行为 。 为 此 ， 我 们 必须 首先 理解 复制 系统 的 正确 行为 是 什么 样 的 。 

线性 化 能 力 和 硕 序 一 致 性 对 于 复制 对 象 有 不 同 的 正确 性 准则 。 最 严格 的 正确 系统 是 可 线性 化 
的 ， 该 性 质 称 为 线性 化 能 力 。 为 了 理解 线性 化 能 力 ， 考 虑 一 个 有 两 个 客户 的 复制 服务 实现 。 设 客 
户 的 某 一 执行 中 读 和 更 新 操作 的 序列 为 op, ov, oz, … 其 中 每 一 个 操作 ou 在 运行 时 包含 操作 类 型 、 参 
数 和 返回 值 。 我 们 假定 每 一 个 操作 都 是 同步 的 ， 即 客户 在 执行 下 一 个 操作 前 必须 等 待 前 一 个 操作 
的 完成 。 

管理 单 副本 对 象 的 单个 服务 器 总 是 串 行 化 客户 的 操作 。 在 只 有 客户 1 和 客户 2 的 执行 情况 下 ， 
这 种 操作 的 交错 序列 可 能 是 o>， O21, O10, O22, O11, O012, ***o 我 们 通常 参考 一 个 虚拟 的 客户 操作 交错 序 
列 来 定义 复制 对 象 的 正确 性 准则 。 这 种 序列 不 一 定 在 每 台 副本 管理 器 上 发 生 ， 但 它 建立 了 执行 的 
正确 性 。 

一 个 被 复制 的 共享 对 象 服务 ， 如 果 对 于 任何 执行 ， 存 在 某 一 个 由 全 体 客 户 操作 的 交错 序列 ， 
并 满足 以 下 两 个 准则 ， 则 该 服务 被 认为 是 可 线性 化 的 : 

* 操作 的 交错 执行 序列 符合 对 象 的 (单个 ) 正确 副本 所 遵循 的 规约 。 

* 操作 的 交错 执行 次 序 和 实际 运行 中 的 次 序 实时 一 致 。 

该 定义 符合 这 样 的 观点 ， 对 于 任何 客户 操作 ， 依 靠 共享 对 象 的 虚拟 映像 ， 有 一 个 虚拟 的 规范 
执行 一 -所 谓 规范 执行 是 指 由 定义 确定 的 交错 执行 操作 。 每 个 用 户 看 到 的 共享 对 象 的 视图 和 那个 映 
像 一 致 ， 即 当 用 户 的 操作 发 生 在 交错 执行 序列 中 时 ， 这 些 操作 结果 才 有 意义 。 

在 所 举 的 例子 中 ， 引 起 银行 账户 客户 执行 的 服务 不 是 可 线性 化 的 。 即 使 忽略 了 操作 发 生 的 真实 
时 间 ， 也 没有 两 个 客户 操作 的 任何 序列 满足 银行 账目 规范 的 序列 。 为 了 进行 审计 ， 如 果 一 个 账户 的 
更 新 发 生 在 另 一 个 账户 更 新 之 后 ， 那 么 如 果 已 经 看 到 第 二 个 更 新 ， 第 一 个 更 新 也 应 该 保存 起 来 。 

注意 ， 线 性 化 能 力 仅仅 考虑 个 体操 作 的 交错 次 序 ， 并 不 打算 是 事务 化 的 。 如 果 没 有 应 用 并 发 
控制 ， 一 个 可 线性 化 操作 可 能 破坏 应 用 特定 的 一 致 性 概念 。 

线性 化 能 力 中 的 实时 要 求 是 现实 世界 所 需要 的 ， 这 是 因为 它 符合 我 们 的 观念 ， 客户 应 该 收 到 
最 新 的 数据 。 不 过 ， 定 义 中 的 实时 性 要 求 会 引起 线性 化 能 力 的 一 些 现实 问题 ， 因 为 我 们 不 能 将 时 
钟 同步 到 要 求 的 精确 程度 。 一 个 较 弱 的 正确 性 条 件 是 顺序 一 臻 性。 在 不 要 求实 时 的 情况 下 ， 这 个 
条 件 抓 住 了 处 理 请 求 的 顺序 的 实质 。 顺 序 一 致 性 保留 了 线性 化 能 力 的 第 一 个 准则 ， 但 对 第 二 个 准 
则 做 了 修改 : 

一 个 被 复制 的 共享 对 象 服务 被 称 为 是 顺序 一 致 的 ， 如 果 对 所 有 客户 发 出 的 操作 序列 ， 存 在 某 
种 交错 执行 ， 满 足下 面条 件 : 

* 操作 的 交错 序列 符合 对 象 的 (单个 ) 正确 副本 所 遵循 的 规范 。 

* 操作 在 交错 执行 中 的 次 序 和 在 每 个 客户 程序 中 执行 的 次 序 一 致 。 

注意 ， 在 上 述 定义 中 并 没有 出 现 绝 对 时 间 ， 在 操作 上 也 没有 要 求 任何 全 序 。 与 次 序 相关 的 唯一 
概念 是 每 个 客户 上 的 事件 次 序 一 -程序 的 次 序 。 操 作 的 交错 执行 会 以 任意 方式 来 重新 排列 一 个 客户 
集合 上 的 操作 ， 只 要 不 违反 每 个 客户 的 顺序 ， 而 且 按照 对 象 规 范 而 言 ， 每 个 操作 的 结果 与 重新 排列 
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前 的 操作 结果 一 致 。 这 就 像 把 几 堆 牌 以 某 种 方式 混在 一 起 ， 但 要 求 保持 每 堆 牌 的 原 有 次 序 一 样 。 
每 一 个 可 线性 化 服务 都 是 顺序 一 致 的 ， 这 是 因为 实时 次 序 反 映 了 程序 次 序 。 但 是 反之 不 成 立 。 
下 面 的 例子 满足 顺序 一 致 性 ， 但 不 是 可 线性 化 的 : 


客户 1: 客户 2: 
setBalancep(x, 1) 
getBalanceA(y) 一 2 


getBalance,(x)—>0 
setBalance,(y, 2) 


这 个 执行 在 简单 复制 策略 下 是 有 可 能 出 现 的 ， 即 使 计算 机 A 和 B 都 没 出 故障 ， 但 客户 1 在 B 上 对 
x 的 更 新 在 客户 2 读 取 它 时 没有 到 达 的 话 ， 就 会 出 现 这 种 情况 。 在 该 例 中 ， 由 于 getBalances(x) 一 0 
发 生 在 setBalanceB(x, 1) 之 后 ， 因 此 线性 化 的 实时 准则 没有 满足 。 但 是 下 面 的 交错 执行 却 满足 顺序 
一 致 性 的 两 个 准则 : getBalanceA(y) 一 0, getBalanceA(x) 一 0, setBalances(x, 1), SetBalanceA(y, 2)。 

Lamport 考 虑 了 共享 内 存 寄存 器 的 顺序 一 致 性 [1979] 和 线性 化 问题 [1986] (尽管 他 使 用 的 术语 
是 “原子 性 ”而 不 是 “线性 化 能 力 ”)。Herlihy 和 Wing[1990] 将 这 一 思想 加 以 推广 ， 使 之 涵盖 任 
意 共享 对 象 。 第 18 章 将 研究 分 布 式 共享 内 存 ， 其 中 会 定义 并 讨论 一 些 更 弱 的 一 致 性 的 性 质 。 


15.3.1 被 动 ( 主 备份 ) 复制 

在 用 于 容错 的 被 动 或 主 备份 复制 模型 中 ( 见 
图 15-4) ， 任 何 时 候 都 有 一 个 主 副本 管理 器 和 一 个 
或 多 个 次 备份 副本 管理 器 ， 它 们 称 为 “备份 ”或 
“从 管理 器 ”。 该 模型 的 实质 是 ， 前 端 只 和 主 副本 
管理 器 通信 以 获得 服务 。 主 副本 管理 器 执行 操作 
并 将 更 新 操作 的 副本 发 送 到 备份 副本 管理 器 。 如 = .2 
果 主 副本 管理 器 出 现 故 障 ， 那 么 某 个 备份 副本 管 全 
理 器 将 被 提升 为 主 副本 管理 器 图 15-4 用 于 容错 的 被 动 ( 主 备份 ) 模型 

当 用 户 需要 执行 一 个 操作 时 ， 事 件 的 次 序 如 下 ; 

1) 请 求 : 前 端 将 请 求 发 送 给 主 副本 管理 器 ， 请 求 中 包括 了 一 个 唯一 标识 符 。 

2) 协调 : 主 副本 管理 器 按 收 到 请 求 的 次 序 原子 地 执行 每 一 个 请 求 。 它 检查 请 求 的 唯一 标识 符 ， 
如 果 请 求 已 经 执行 了 ， 那 只 需 再 次 发 送 响应 。 

3) 执行 : 主 副本 管理 器 执行 请 求 并 存储 响应 。 

4) 协定 : 如 果 请 求 是 更 新 操作 ， 那 么 主 副本 管理 器 向 每 个 备份 副本 管理 器 发 送 更 新 后 的 状态 、 
响应 和 唯一 标识 符 ， 备 份 副本 管理 器 返回 一 个 确认 。 

5) 响应 : 主 副本 管理 器 将 响应 前 端 ， 前 端 再 将 响应 发 送 给 客户 。 

在 主 副 本 管理 器 正确 运行 的 情况 下 ， 由 于 主 副 本 管理 器 在 共享 对 象 上 将 所 有 操作 顺序 化 ， 因 
此 该 系统 显然 是 具有 线性 化 能 力 的 。 当 主 副本 管理 器 出 故障 时 ， 如 果 某 个 备份 变 为 新 的 主 副 本 管 
理 器 并 且 新 的 系统 配置 从 故障 点 正确 接管 的 话 ， 那 么 系统 仍 具 有 线性 化 能 力 : 

。 主 副本 管理 器 被 唯一 的 备份 副本 管理 器 代替 (如 果 两 个 客户 使 用 两 个 备份 ， 那 么 系统 将 不 会 

正确 执行 )， 并 且 

。 当 接管 主 副本 管理 器 时 ， 剩 余 的 备份 副本 管理 器 在 哪些 操作 已 被 执行 上 达成 一 致 。 

如 果 副 本 管理 器 ( 主 副本 管理 器 和 备份 副本 管理 器 ) 组 织 为 一 个 组 ， 并 且 主 副本 管理 器 使 用 视 
图 同步 组 通信 发 送 更 新 到 备份 ， 那 么 上 述 两 个 要 求 都 能 达到 。 上 述 两 个 要 求 中 的 第 一 个 要 求 很 容易 
满足 。 当 主 副本 管理 器 崩溃 时 ， 通 信 系 统 最 终 传递 一 个 新 的 视图 给 现 有 的 备份 ， 该 视图 不 包含 原来 
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的 主 副本 管理 器 。 替 代 主 副本 管理 器 的 备份 可 以 用 针对 该 视图 的 任何 函数 选择 ， 比 如 可 选择 视图 中 
的 第 一 个 成 员 作为 替代 。 作为 替代 的 那个 备份 副本 管理 器 使 用 名 字 服 务 将 自己 登记 为 主 副本 管理 器 ， 
客户 在 怀疑 主 副本 管理 器 出 故障 (或 在 第 一 次 请 求 服务 ) 时 可 以 通过 名 字 服 务 进行 查询 。 

通过 使 用 视图 同步 的 排序 性 质 ， 以 及 通过 存储 标识 符 来 检测 重复 的 请 求 ， 可 以 满足 第 二 个 要 
求 。 视 图 同步 的 语义 保证 了 在 传递 新 视图 以 前 ， 或 者 所 有 备份 或 者 没有 备份 传递 任何 更 新 。 新 的 
主 副本 管理 器 和 存活 下 来 的 备份 副本 管理 器 能 就 客户 的 更 新 是 否 已 执行 达成 一 致 。 

现在 来 考虑 前 端 没 有 收 到 响应 的 情况 。 前 端 将 请 求 重 传 到 作为 主 副本 管理 器 接管 的 备份 副本 
管理 器 。 主 副本 管理 器 在 操作 执行 的 任何 点 都 可 能 崩溃 。 如 果 它 在 协定 阶段 (4) 之 前 崩溃 ， 那 么 
存活 的 副本 管理 器 将 不 再 处 理 这 个 请 求 。 如 果 它 在 协定 阶段 中 崩溃 ， 那 么 它们 可 能 已 经 执行 了 那 
个 请 求 。 如 果 它 在 协定 阶段 之 后 崩溃 ， 那 么 它们 肯定 不 会 再 处 理 这 些 请求 。 但 新 的 主 副本 管理 器 
并 不 需要 知道 原来 的 管理 器 在 崩溃 时 处 在 什么 阶段 。 当 它 收 到 一 个 请 求 ， 它 从 第 二 阶段 开始 执行 。 
通过 视图 同步 ， 主 副本 管理 器 并 不 需要 查询 备份 副本 管理 器 ， 因 为 它们 处 理 了 同样 的 消息 集合 。 

有 关 被 动 复 制 的 讨论 当主 副本 管理 器 以 非 确定 性 方式 运行 时 (例如 以 多 线程 方式 操作 时 )， 
可 以 使 用 主 - 备 份 模型 。 由 于 主 副本 管理 器 是 将 操作 的 更 新 状态 发 送 给 备份 副本 管理 器 而 不 是 发 送 
操作 自身 的 规范 ， 所 以 备份 只 是 被 动 地 记录 这 些 由 主 副本 管理 器 的 行为 独立 决定 的 状态 。 

为 了 能 够 在 至 多 /个 进程 崩溃 时 还 能 工作 ， 被 动 的 复制 系统 需要 六 + 1 个 副本 管理 器 (但 该 系统 
不 能 忍受 拜占庭 故障 )。 前 端 不 需要 任何 容错 功能 。 不 过 ， 当 当前 的 主 副本 管理 器 不 响应 时 ， 前 端 
需要 查找 新 的 主 副本 管理 器 。 

被 动 复制 的 缺点 是 开销 相对 较 大 。 视 图 同步 通信 在 每 次 组 播 时 需要 儿 个 回合 的 通信 ， 而 且 
当主 副本 管理 器 发 生 故障 时 ， 组 通信 系统 需要 进行 协商 并 传递 新 视图 ， 这 会 导致 更 多 的 延 时 

在 该 模型 的 一 个 变种 中 ， 客 户 可 以 将 读 请 求 提交 到 备份 副本 管理 器 ， 这 样 可 减轻 主 副本 管理 
器 的 负载 。 该 系统 不 能 保证 线性 化 ， 但 仍 能 提供 具有 顺序 一 致 性 的 服务 。 

被 动 复制 系统 在 Harp 复 制 文件 系统 [Liskov et al. 1991] 中 使 用 。Sun 网 络 信息 服务 (NIS， 以 前 
的 黄页 ) 尽管 采用 了 比 顺序 一 致 性 要 弱 的 保证 ， 但 通过 被 动 复制 获得 了 高 可 用 性 和 高 性 能 。 在 某 
些 情况 下 ， 更 弱 的 一 致 保证 仍然 可 以 满足 需求 ， 例 如 存储 某 些 用 于 系统 管理 的 记录 。 复 制 的 数据 
在 一 个 主 服务 器 上 被 更 新 并 从 主 副本 服务 器 以 一 对 一 的 方式 (而 不 是 组 ) 传播 到 备份 服务 器 。 客 
户 通 过 和 主 或 备份 服务 器 通信 以 获得 信息 。 但 在 NIS 中 ， 客 户 可 能 不 请 求 更 新 ， 更 新 仅 针对 主 服务 
器 的 文件 进行 。 


15.3.2 主动 复制 


在 用 于 容错 的 主动 复制 模型 中 (参见 图 15-5) ， 副 本 管理 器 是 一 个 状态 机 ， 其 中 每 个 副本 管理 
器 充当 同等 的 角色 并 被 组 织 成 一 个 组 。 前 端 将 
它们 的 消息 组 播 到 副本 管理 器 组 ， 并 且 所 有 的 
副本 管理 器 按 独立 但 相同 的 方式 来 处 理 请 求 并 
给 出 应 答 。 任 何 一 个 副本 管理 器 的 崩溃 都 不 会 
影响 服务 的 性 能 ， 剩 下 的 副本 管理 器 能 继续 正 
常 地 响应 。 我 们 将 看 到 ， 主 动 复制 能 容忍 拜 占 
庭 故 障 ， 因 为 前 端 可 以 收集 并 比较 收 到 的 应 答 。 

对 于 主动 复制 ， 当 客户 请 求 一 个 操作 时 ， 
事件 顺序 如 下 : 

1) 请 求 : 前 端 给 请 求 加 上 一 个 唯一 标识 符 并 将 其 组 播 到 副本 管理 器 组 ,这 里 使 用 一 个 全 序 的 、 
可 靠 的 组 播 原 语 。 假 设 在 最 坏 的 情况 下 ， 前 端 会 由 于 崩溃 而 出 现 故 障 。 前 端 在 收 到 响应 之 前 不 会 





图 15-5 主动 复制 
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发 送 新 的 请 求 。 

2) 协调 : 组 通信 系统 以 同样 的 次 序 (全 序 ) 将 请 求 传递 到 每 个 正确 的 副本 管理 器 。 

3) 执行 : 每 个 副本 管理 器 执行 请 求 。 由 于 它们 是 状态 机 ， 并 且 请 求 到 来 的 次 序 相 同 ， 因 此 正 
确 的 副本 管理 器 以 相同 的 方式 处 理 请 求 。 请 求 的 响应 包括 客户 的 唯一 请 求 标 识 符 。 

4) 协定 : 由 于 组 播 的 传递 语义 ， 实 际 上 不 需要 该 阶段 。 

5) 响应 : 每 个 副本 管理 器 将 它 的 响应 送 往 前 端 ， 前 端 收 到 应 答 的 数量 取决 于 故障 模型 的 假设 
和 组 播 算法 。 例 如 ， 如 果 目 标 是 只 容忍 崩溃 故障 并 且 组 播 满足 统一 协定 和 排序 性 质 ， 那 么 前 端 可 
将 第 一 个 响应 返回 给 客户 ， 并 丢弃 其 他 响应 (通过 使 用 唯一 标识 符 ， 它 能 将 这 些 响应 与 其 他 的 响 
应 中 区 分 开 来 )。 

这 个 系统 具有 顺序 一 致 性 。 所 有 正确 的 副本 管理 器 处 理 同 样 次 序 的 请 求 。 组 播 的 可 靠 性 保证 
每 一 个 正确 的 副本 管理 器 处 理 同样 的 请 求 集合 ， 全 序 保 证 以 同样 的 顺序 处 理 它们 。 因 为 它们 是 状 
态 机 ， 所 以 在 每 一 个 请 求 后 ， 它 们 都 会 到 达 同 一 个 状态 。 每 个 前 端的 请 求 以 FIFO 的 顺序 进行 处 理 
(因为 前 端 在 发 出 下 一 个 请 求 前 会 等 待 响应 ) ， 这 和 “程序 的 顺序 ”一 样 ， 从 而 保证 了 顺序 一 致 性 。 

如 果 客 户 在 等 待 它们 请 求 的 响应 时 并 不 和 其 他 客户 通信 ， 那 么 它们 的 请 求 按 发 生 在 先 顺 序 处 
理 。 如 果 客 户 是 多 线程 的 ， 并 且 在 等 待 响应 和 其 他 的 客户 通信 ， 那 么 为 了 确保 请 求 以 发 生 在 先 次 
序 处 理 ， 我 们 必须 将 组 播 替换 为 既是 因果 序 又 是 全 序 的 传播 方法 。 

由 于 副本 管理 器 处 理 请 求 的 全 序 并 不 一 定 和 客户 发 生 这 些 请 求 的 实时 次 序 相 同 ， 因 此 主动 复 
制 系统 并 不 具有 线性 化 能 力 。Schneider[1990] 阑 述 了 在 有 大 致 同步 时 钟 的 同步 系统 中 ， 副 本 管理 器 
处 理 请 求 的 全 序 能 够 根据 前 端 为 请 求 提供 的 物理 时 间 发 顺序 来 实现 。 因 为 时 间 蕉 是 不 精确 的 ， 所 
以 不 能 保证 线性 化 ， 但 能 够 保证 大 致 上 一 致 。 

有 关 主 动 复制 的 讨论 ”我们 假设 存在 保证 全 序 和 可 靠 组 播 的 解决 方案 。 就 像 第 12 章 指出 的 ， 解 
决 了 可 靠 性 和 全 序 的 组 播 等 价 于 解决 了 共识 。 解 决 共识 又 要 求 系统 是 同步 的 ， 或 者 使 用 了 一 种 技 
术 (如 应 用 故障 检测 器 ) 来 绕 过 Fischer 等 人 [1985] 获 得 的 理论 上 的 不 可 能 性 。 

某 些 共识 的 解决 方案 ， 像 Canetti 和 Rabin 的 方法 [1993]， 可 以 在 有 拜占庭 故障 的 情况 下 工作 。 
如 果 某 个 解决 方案 能 够 提供 全 序 和 可 靠 的 组 播 ， 那 么 主动 复制 系统 就 能 够 屏蔽 至 多 /个 拜占庭 故障 ， 
只 要 服务 包含 至 少 2f + ! 个 副本 管理 器 。 每 个 前 端 一 直 等 待 到 它 收集 到 / + 1 个 相同 的 响应 才 将 响应 
返回 给 用 户 。 它 丢弃 对 同一 请 求 的 其 他 响应 。 为 了 确定 哪个 响应 和 哪个 请 求 相 联系 (假定 有 拜 占 
庭 故障 ) ， 我 们 要 求 副 本 管理 器 对 它们 的 响应 进行 数字 签名 。 

可 以 将 我 们 描述 的 系统 进行 适当 放宽 。 首 先 我 们 已 经 假定 所 有 对 于 共享 复制 对 象 的 更 新 必须 
以 同样 的 次 序 发 生 。 然 而 ， 在 实际 中 一 些 操作 是 可 交换 的 ， 即 两 个 操作 以 oj;o; 的 顺序 执行 和 以 相 
反 的 顺序 o>; o, 的 执行 效果 是 一 样 的 。 例 如 ，( 来 自 不 同 客户 的 ) 任何 两 个 只 读 操作 是 可 交换 的 ， 任 
何 两 个 非 读 操 作 ， 若 更 新 不 同 的 对 象 ， 也 是 可 交换 的 。 主 动 复制 系统 需要 使 用 交换 性 的 知识 来 避 
免 将 所 有 请 求 排序 的 代价 。 我 们 在 第 12 章 指出 ， 一 些 系统 已 经 采用 了 应 用 特定 的 组 播 排 序 语义 
[Cheriton and Skeen 1993, Pedone and Schiper 1999]。 

最 后 ， 前 端 可 以 只 发 送 只 读 请 求 到 某 个 副本 管理 器 。 这 样 ， 系 统 丧 失 了 与 组 播 请 求 有 关 的 容 
错 ， 但 是 服务 仍然 是 顺序 一 致 的 。 此 外 ， 在 这 种 情况 下 ， 前 端 可 非常 容易 地 屏 项 副本 管理 器 的 故 
障 ， 仅 仅 需要 将 这 个 只 读 请 求 发 送 到 另 一 个 副本 管理 器 。 


15.4 高 可 用 服务 的 实例 研究 ，gossip 体 系 结构 、Bayou 和 Coda 


本 节 考 虑 如 何 利 用 复制 技术 来 获得 服务 的 高 可 用 性 。 我 们 现在 的 重点 是 使 客户 在 合理 的 响应 时 间 
内 访问 有 最 务 一 一 即使 某 些 结果 没有 遵守 顺序 一 致 性 。 例 如 ， 本 章 开 头 所 说 的 火车 上 的 用 户 如 果 在 断 链 
时 能 继续 工作 ， 那 么 他 们 会 愿意 以 后 接受 数据 副本 (比如 日 记 ) 间 暂 时 的 不 一 致 ， 并 在 以 后 加 以 修正 。 
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在 15.3 节 中 我 们 看 到 ， 容 错 系统 用 一 种 “及 时 ”的 方式 将 更 新 传播 到 副本 管理 器 : 只 要 可 能 ， 
所 有 正确 的 副本 管理 器 都 收 到 更 新 ， 并 在 将 控制 传递 回 客户 以 前 达成 一 致 。 这 种 方式 并 不 适合 高 
可 用 操作 。 反 之 ， 系 统 应 该 通过 使 用 最 小 的 与 客户 连接 的 副本 管理 器 集合 ， 提 供 一 个 可 接受 级 别 
的 服务 。 当 副本 管理 器 协调 它们 的 动作 时 ， 应 该 尽量 减少 客户 的 等 待 时 间 。 较 弱 程度 的 一 致 性 通 
常 要 求 较 少 的 协定 ， 这 使 得 共享 数据 的 可 用 性 提高 。 

下 面 研究 三 个 提供 高 可 用 服务 的 系统 的 设计 : gossip 体 系 结构 、Bayou 和 Coda。 


15.4.1 gossip 体 系 结构 


Ladin 等 [1992] 开 发 了 gossip 体 系 结构 ， 用 它 作为 框架 实现 了 高 可 用 性 服务 ， 具 体 实现 方式 是 复制 
数据 到 需要 这 些 数据 的 客户 组 的 邻近 点 。 它 的 名 字 就 反映 了 这 样 的 一 个 事实 ; 副本 管理 器 定期 通过 
gossip 消 息 来 传递 客户 的 更 新 ( 见 图 15-6)。 这 种 体系 结构 是 基于 Fisher 和 Michael[1982]、Wuu 和 
Bemstein[1984] 早 期 在 数据 库 方面 的 工作 。 它 可 以 用 来 创建 一 个 高 可 用 性 的 电子 公告 板 或 日 记 服务 ， 

Gossip 服 务 提供 两 种 基本 操作 :， 坦 询 和 更 新 。 查 询 是 只 读 操作 ， 更 新 用 来 变更 状态 但 却 不 读 取 
状态 (第 二 种 操作 比 我 们 已 经 使 用 的 更 新 具有 更 严格 的 定义 )。 一 个 关键 的 特征 是 前 端 发 送 查 询 和 
更 新 给 它们 选择 的 副本 管理 器 一 任何 可 利用 和 能 提供 合理 响应 时 间 的 副本 管理 器 。 尽 管 某 个 副本 
管理 器 可 能 暂时 不 能 和 其 他 副本 管理 器 通信 ， 系 统 仍然 做 出 以 下 两 个 保证 : 

。 随 着 时 间 推移 ， 每 个 用 户 总 能 获得 一 致 服务 ， 

为 了 回答 某 个 查询 ， 副 本 管理 器 提供 给 一 个 客 

户 的 数据 只 要 能 反映 迄今 为 止 客户 已 经 观测 到 

的 更 新 即 可 。 用 户 可 以 在 不 同 的 时 间 和 不 同 的 

副本 管理 器 通信 ， 因 此 从 原理 上 能 与 这 个 副本 

管理 器 通信 ， 该 副本 管理 器 比 以 前 使 用 的 “ 稍 

微 落 后 一 些 ”。 

。 副 本 之 间 松 弛 的 一 致 性 : 所 有 的 副本 管理 器 最 

终 将 收 到 所 有 的 更 新 。 它 们 根据 排序 保证 来 应 

用 这 些 更 新 ， 排 序 保证 使 副本 充分 满足 应 用 的 

要 求 。 值 得 注意 的 是 ， 尽 管 gossip 体 系 结构 可 

GO 

为 了 支持 松弛 的 一 致 性 ，gossip 体 系 结构 支持 更 新 的 因果 序 ， 其 定义 见 14.2.1 节 。 它 同样 支持 
更 强 的 排序 保证 ， 强 制 序 (全 序 和 因果 序 ) 和 即时 序 。 即 时 序 的 更 新 是 在 所 有 副本 管理 器 上 按 一 
致 的 次 序 执行 任何 更 新 ， 不 管 这 些 更 新 的 次 序 是 因果 的 、 强 制 的 还 是 即时 的 。 如 果 一 个 强制 序 的 
更 新 和 一 个 因果 序 的 更 新 之 间 不 存在 发 生 在 先 关系 时 ， 它 们 在 不 同 副本 管理 器 上 的 执行 次 序 可 能 
不 同 ， 因 此 除了 提供 强制 序 外 ， 还 需要 提供 即时 序 。 

具体 使 用 哪 种 排序 由 应 用 的 设计 者 决定 ， 它 反映 了 在 一 致 性 和 操作 代价 之 间 的 一 种 取舍 。 因 
果 更 新 的 代价 远 远 低 于 其 他 排序 的 更 新 ， 只 要 可 能 ， 一 般 都 使 用 它 。 注 意 ， 任 意 一 个 副本 管理 器 
都 能 满足 的 查询 相对 于 其 他 操作 永远 以 因果 序 执行 。 

考虑 一 个 电子 公告 板 的 应 用 ， 其 中 一 个 客户 程序 ( 它 并 入 了 一 个 前 端 ) 在 用 户 机 上 执行 ， 并 

和 一 个 本 地 副本 管理 器 通信 。 客 户 程序 将 用 户 的 投稿 发 送 给 本 地 副本 管理 器 ， 这 个 副本 管理 器 在 
gossip 消 息 中 将 新 投稿 发 送 给 其 他 的 副本 管理 器 。 电子 公告 板 的 读者 看 到 的 是 略微 过 时 的 投稿 列表 ， 
但 是 如 果 延 时 是 以 分 和 小 时 计 而 不 是 以 天 计 的 话 ， 一 般 影响 不 大 。 因 果 序 可 用 于 投稿 项 。 这 意味 
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着 一 般 投稿 在 不 同 的 副本 管理 器 将 以 不 同 的 次 序 出 现 。 但 是 ， 一 个 主题 为 “回复 : 桔子 ”的 投稿 
总 是 比 它 引 用 的 标题 为 “桔子 ”的 消息 晚 发 送 。 强 制 序 能 够 用 来 在 电子 公告 板 中 加 入 一 个 新 的 订 
阅 者 ， 这 样 用 户 加 入 记录 的 顺序 是 无 二 义 的 。 即 时 序 可 以 用 来 从 电子 公告 板 中 的 订阅 列表 中 删除 
一 个 用 户 ， 这 样 一旦 删除 操作 返回 ， 那 个 用 户 就 不 会 从 一 个 响应 迟缓 的 副本 管理 器 获得 消息 了 。 

一 个 gossip 服 务 的 前 端 通过 使 用 应 用 特定 的 API 来 处 理 客户 操作 ， 并 将 其 转 为 gossip 操 作 。 通 
常 ， 客 户 操作 可 以 是 查询 复制 的 状态 、 更 新 复制 的 状态 或 两 者 都 有 。 由 于 在 gossip 中 ， 更 新 操作 只 
是 修改 状态 ， 因 此 前 端 会 把 一 个 读 取 和 修改 都 有 的 操作 转换 为 分 离 的 查询 操作 和 更 新 操作 。 

在 我 们 的 基本 复制 模型 中 ，gossip 服 务 处 理 查 询 和 更 新 操作 的 大 致 流程 如 下 : 

1) 请 求 : 前 端 一 次 通常 只 发 送 请 求 到 一 个 副本 管理 器 。 然 而 ， 当 它 使 用 的 副本 管理 器 出 现 故 
障 或 不 可 达 时 ， 前 端 将 和 另 一 个 副本 管理 器 通信 。 当 正常 的 那个 副本 管理 器 负担 过 重 时 ， 前 端 也 
将 尝试 使 用 其 他 的 副本 管理 器 。 因 此 ， 前 端 和 客户 可 能 阻塞 在 一 个 查询 操作 上 。 另 一 方面 ， 在 加 
认 情 况 下 ， 更 新 操作 一 旦 被 传递 给 前 端 ， 就 可 立即 返回 给 客户 ， 前 端 再 在 后 台 传 播 这 个 操作 。 为 
了 提高 可 靠 性 ， 客 户 可 以 被 阳 塞 到 更 新 已 经 传 给 了 f + 1 个 副本 管理 器 后 才 继 续 执 行 ， 这 样 就 算 /个 
副本 管理 器 出 现 故 障 ， 操 作 也 将 传递 到 任何 位 置 。 

2) 对 更 新 操作 的 响应 : 如 果 请 求 是 一 个 更 新 ， 那 么 副本 管理 器 只 要 一 收 到 更 新 就 立即 应 答 。 

3) 协调 : 收 到 请 求 的 副本 管理 器 并 不 处 理 操作 ， 直 到 它 能 根据 所 要 求 的 次 序 约束 处 理 请 求 为 
止 。 这 涉及 接收 其 他 的 副本 管理 器 以 gossip 消 息 形 式 发 送 的 更 新 。 各 副本 管理 器 之 间 不 存在 其 他 方 
式 的 协调 。 

4) 执行 : 副本 管理 器 执行 请 求 。 

5) 对 查询 操作 的 响应 : 如 果 请 求 是 一 个 查询 操作 ， 副 本 管理 器 将 在 此 给 出 应 答 。 

6) 协定 : 副本 管理 器 通过 交换 gossip 消 息 进行 相互 更 新 ， 这 些 gossip 消 息 包含 了 大 量 最 近 收 到 
的 更 新 。 它 们 相互 之 间 以 惰性 方式 更 新 系统 ， 这 是 因为 gossip 消 息 的 交换 是 偶尔 的 。 在 收集 到 若干 
更 新 之 后 ， 或 者 当 某 个 副本 管理 器 发 现 它 丢 失 了 一 个 发 送 到 其 他 副本 管理 器 的 更 新 ， 而 该 管理 器 
在 处 理 新 请 求 时 又 需要 这 个 更 新 时 ， 系 统 才 会 交换 gossip 消 息 。 

下 面 将 更 详细 地 描述 gossip 系 统 。 我 们 先 考虑 前 端 与 副本 管理 器 为 了 维持 更 新 排序 保证 而 维护 
的 时 间 锥 和 数据 结构 ， 在 此 基础 上 解释 副本 管理 器 如 何 处 理 查询 和 更 新 。 维 持 因 果 更 新 的 向 量 时 
间 戳 的 处 理 和 12.4.3 节 的 因果 组 播 算法 相似 。 

前 端的 版 本 时 间 惟 ”为 了 控制 操作 处 理 的 次 序 ， 每 个 前 端 维持 了 一 个 向 量 时 间 蕉 ， 它 用 来 反映 
前 端 访问 的 (因而 也 是 客户 访问 的 ) 最 新 数据 值 。 在 该 时 间 截 中 ( 即 图 15-6 中 的 prevy)， 每 个 副本 管 
理 器 有 一 条 对 应 的 记录 。 前 端 将 其 放 入 每 一 个 请 求 消息 中 ， 与 更 新 或 查询 操作 的 描述 一 起 发 送 给 副 
本 管理 器 。 当 副本 管理 器 返回 一 个 值 作 为 查询 操作 的 结果 时 ， 副 本 管理 器 提供 一 个 新 的 向 量 时 间 发 
(图 中 的 new) ， 因 为 完成 最 后 一 个 操作 后 副本 可 能 已 经 更 新 了 。 类 似 地 ， 更 新 操作 也 返回 一 个 唯一 
的 向 量 时 间 惟 (图 中 的 updateid) 。 每 一 个 返回 的 时 间 改 和 前 端 先前 的 时 间 蕉 合并 ， 用 于 记录 已 经 被 
用 户 观察 到 的 复制 数据 的 版 本 (参见 11.4 节 的 向 量 时 间 改 合并 的 定义 )。 

客户 通过 访问 相同 的 gossip 服 务 和 相互 直接 通信 来 交换 数据 。 由 于 客户 到 客户 的 通信 也 能 导致 
服务 操作 之 间 的 因果 关系 ， 因 此 交换 数据 同样 也 要 通过 前 端 。 这 样 ， 前 端 可 以 顺便 将 它们 的 向 量 
时 间 蕉 发 送 给 其 他 的 客户 。 接 收 者 将 它们 和 自己 的 向 量 时 间 惟 合并 ， 这 样 可 正确 地 保证 因果 次 序 。 
这 种 情况 如 图 15-7 所 示 。 

副本 管理 器 状态 在 不 考虑 应 用 时 ， 一 个 副本 管理 器 包含 的 主要 状态 信息 如 下 (参见 图 1S-8) ， 

1) 值 : 这 是 由 副本 管理 器 维护 的 应 用 状态 的 值 。 每 个 副本 管理 器 是 一 个 状态 机 ， 它 起 始 于 一 
个 特定 的 初始 值 ， 此 后 ， 它 的 状态 完全 由 更 新 操作 来 决定 。 

2) 值 的 时 间 截 : 这 是 代表 更 新 的 向 量 时 间 惟 (更 新 反映 在 值 中 ) 。 在 该 时 间 戳 中， 每 个 副本 
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管理 器 有 一 个 对 应 的 记录 。 当 在 值 上 执行 更 新 操作 时 ， 它 就 被 更 新 。 

3) 更 新 日 志 : 所 有 的 更 新 操作 只 要 被 收 到 了 ， 就 将 记录 在 这 个 日 志 中 。 一 个 副本 管理 器 在 日 
志 中 记录 更 新 有 两 个 理由 。 第 一 个 理由 是 因为 操 二 
作 不 稳定 ， 副 本 管理 器 不 能 进行 更 新 操作 。 一 个 
稳定 的 更 新 操作 可 以 在 它 的 排序 保证 (因果 、 强 
制 和 即时 ) 下 一 致 地 执行 。 不 稳定 的 更 新 必须 阻 
止 。 第 二 个 理由 是 ， 即 使 更 新 是 稳定 的 并 且 已 经 
在 值 上 执行 ， 副 本 管理 器 并 没有 收 到 更 新 已 被 其 
他 所 有 副本 管理 器 收 到 的 确认 ， 与 此 同时 ， 它 以 
gossip 消 息 形式 传播 更 新 。 

4) 副本 时 间 役 : 这 个 向 量 时 间 惟 代表 那些 已 
经 被 副本 管理 器 接收 到 的 更 新 ， 即 在 管理 器 日 志 
中 的 更 新 。 一 般 情况 下 ， 它 和 值 的 时 间 戳 不同， 
因为 并 不 是 所 有 在 日 志 中 的 更 新 都 是 稳定 的 。 

5) 已 执行 操作 表 : 同样 的 更 新 可 以 从 前 端 ， 
也 可 以 从 其 他 的 副本 管理 器 通过 gossip 消 息 发 送 到 一 个 给 定 的 副本 管理 器 。 为 了 防止 一 个 更 新 操作 
被 执行 两 次 ， 系 统 将 维护 一 个 “已 执行 操作 ” 表 ， 它 包含 已 经 执行 的 更 新 的 唯一 标识 符 ， 这 个 唯 
一 标识 符 由 前 端 提供 。 副本 管理 器 将 更 新 加 入 日 志 前 ， 先 检查 这 个 表 。 

6) 时 间 稚 表 : 这 个 表 为 每 个 副本 管理 器 包含 一 个 向 量 时 间 戳 ， 该 时 间 羽 来 自 gossip 消 息 。 副 
本 管理 器 使 用 此 表 来 确定 何 时 一 个 更 新 已 经 应 用 于 所 有 的 副本 管理 器 。 

副本 管理 器 被 编号 为 0, 1, 2, …， 并 且 由 第 ;个 副本 管理 器 掌握 的 向 量 时 间 惟 中 的 第 ;个 元 素 对 应 
于 通过 i 从 前 端 收 到 的 更 新 的 数量 ， 第 个 组 件 ij) 等 于 通过 路 到 的 并 传播 给 ;的 更 新 的 数量 。 例 
如 ， 在 有 三 个 副本 管理 器 的 gossip 系 统 中 , 管理 器 0 上 的 一 个 值 时 间 蕉 (2, 4, 5) 代表 着 这 样 的 事实 : 
从 管理 器 0 的 前 端 接收 两 个 更 新 ， 从 管理 器 1 接收 到 4 个 更 新 ， 从 管理 器 2 接收 到 5 个 更 新 。 下 面 将 详 
细 地 描述 如 何 使 用 时 间 惟 来 保证 次 序 。 


其 他 的 副本 管理 器 
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图 15-8 gossip 的 副本 管理 器 及 其 主要 状态 组 件 
查询 操作 ”最 简单 的 操作 是 查询 操作 。 一 个 查询 请 求 q 包 含 操作 的 描述 和 一 个 由 前 端 发 送 的 时 间 
惟 4.pre， 后 者 反映 了 前 端 已 读 到 或 作为 更 新 已 提交 的 值 的 最 新 版 本 。 因 此 ， 副 本 管理 器 的 任务 是 返回 
一 个 最 近 的 值 。 如 果 value7S 是 副本 的 值 的 时 间 惟 ， 且 下 面条 件 满足 ， 那 么 q 能 够 应 用 到 副本 的 值 上 
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gq.pre < valutTS 

副本 管理 器 将 q 放 到 将 执行 的 操作 表 中 ( 即 一 个 保留 队列 ) ， 直 到 这 个 条 件 满 足 为止 。 它 能 等 
待 丢失 的 更 新 (丢失 的 更 新 最 终 将 通过 gossip 消 息 到 达 )， 也 能 从 相关 的 副本 管理 器 获取 更 新 。 例 
如 ， 如 果 valueTS 是 (2, 5, 5) 并 且 q.pre 是 (2, 4, 6)， 可 以 看 出 ， 只 有 一 个 更 新 丢失 了 ， 即 从 丢失 
了 来 自 副本 管理 器 2 的 一 个 更 新 (提交 q 的 前 端 必须 与 另 一 个 副本 管理 器 联系 ， 这 个 管理 器 先前 看 
见 了 这 个 更 新 ， 而 原来 的 管理 器 却 没 有 看 见 这 个 更 新 )。 

一 旦 执行 了 查询 ， 副 本 管理 器 返回 valueT5 给 前 端 ， 作 为 在 图 15-6 中 显示 的 时 间 规 new。 前 端 将 
其 和 其 他 的 时 间 惟 合并 : frontEndTs := merge (frontEndTS，new)。 在 所 举 的 例子 中 ， 查 询 执 行 前 ， 
前 端 没有 看 到 的 副本 管理 器 1 上 的 更 新 (4.pre 是 4 而 副本 管理 器 是 5) 将 反映 在 frontEndTS 的 更 新 中 
(也 可 以 反映 在 返回 的 值 中 ， 这 取决 于 查询 )。 

按 因果 次 序 处 理 更 新 ”前端 提交 一 个 更 新 请 求 给 一 个 或 更 多 的 副本 管理 器 。 每 一 个 更 新 请 求 u 
包含 一 个 更 新 的 规约 (包括 它 的 类 型 和 参数 ) &op、 前 端的 时 间 戳 必 prev 和 一 个 前 端 产 生 的 唯一 的 
标识 符 u.id。 如 果 前 端 发 送 同样 的 请 求 u 给 若干 副本 管理 器 ， 那 么 每 次 在 u 中 使 用 相同 的 标识 符 一 一 
这 样 u 就 不 会 被 处 理 成 几 个 不 同 的 请 求 而 是 相同 的 请 求 了 。 

当 副 本 管理 器 i 收 到 前 端的 更 新 请 求 时 ， 它 通过 在 已 存在 的 操作 表 和 它 的 日 志 中 的 记录 查找 这 
个 操作 的 标识 符 以 确定 这 个 请 求 是 否 已 被 处 理 。 如 果 查 找到 了 ， 它 将 丢弃 这 个 请 求 ， 否 则 它 将 复 
制 时 间 殊 的 第 i 个 元 素 加 1， 以 记录 它 从 前 端 直接 收 到 的 更 新 个 数 。 然 后 ， 副 本 管理 器 给 更 新 请 求 u 
分 配 一 个 唯一 的 向 量 时 间 惟 (下 面 将 给 出 这 个 向 量 的 来 源 )， 并 且 将 一 个 更 新 记录 放置 到 副本 管理 
器 的 日 志 中 。 如 果 # 是 副本 管理 器 分 配给 更 新 的 唯一 时 间 发 ， 那 么 更 新 记录 按 如 下 元 组 构建 并 保存 
在 日 志 中 : 


logRecord := <i, ts, u.op, u.prev, u.id> 


副本 管理 器 ;将 4prev 的 第 ;个 元 素 替 换 为 它 的 副本 时 间 蕉 的 第 ;个 元 素 (这 个 元 素 刚刚 加 一 )， 
完成 从 u.prev 中 生成 is 时 间 蕉 的 工作 ， 这 样 能 使 s 是 唯一 的 ， 从 而 保证 所 有 的 系统 组 件 能 正确 地 记 
录 而 不 管 它们 是 否 观察 到 了 更 新 。 时 间 惟 is 中 剩 下 的 元 素 从 u.prev 中 获取 ， 因 为 正 是 要 应 用 这 些 从 
前 端 送 来 的 值 决定 何 时 更 新 是 稳定 的 。 副 本 管理 器 立刻 将 8 返回 给 前 端 ， 前 端 将 其 与 它 的 时 间 蕉 合 
并 。 注 意 ， 前 端 可 以 提交 它 的 更 新 给 多 个 副本 管理 器 ， 并 且 收 到 许多 不 同 的 时 间 戳 ， 所 有 这 些 时 
间 恰 都 被 合并 人 它 的 时 间 惟 。 

更 新 请 求 u 的 稳定 性 条 件 类 似 于 下 面 的 查询 : 


u.prev & valueTS 


这 个 条 件 说 明了 这 个 更 新 依靠 的 所 有 的 更 新 〈 即 所 有 由 发 起 更 新 的 前 端 观察 到 的 更 新 ) 已 经 
执行 了 。 如 果 在 更 新 提交 时 这 个 条 件 不 满足 ， 它 将 在 gossip 消 息 到 达 时 重新 检查 。 对 于 一 个 更 新 记 
录 r， 稳 定 条 件 已 经 满足 时 ， 副 本 管理 器 将 更 新 值 、 值 的 时 间 戳 和 已 执行 操作 表 : 


value := apply(value, r.u.op) 
valueTS := merge({valueTS, r.1s) 


executed := executed {J{r.u.id} 


在 这 三 个 语句 中 , 第 一 个 语句 表示 更 新 值 , 第 二 个 语句 将 更 新 的 时 间 改 和 那个 值 的 时 间 改 合并 ， 
第 三 个 语句 将 更 新 操作 的 标识 符 加 入 已 执行 操作 的 标识 符 集合 中 一 一 这 用 来 检查 重复 的 操作 请 求 。 
强制 的 和 即时 的 更 新 操作 ”强制 更 新 和 立即 更 新 需要 特殊 处 理 。 强 制 更 新 是 全 序 加 因果 序 。 保 
证 更 新 的 强制 次 序 的 基本 方法 是 在 相 联 系 的 时 间 惟 后 加 入 一 个 唯一 的 序号 ， 并 以 这 个 序号 的 次 序 
来 处 理 它 们 。 像 第 12 章 所 解释 的 ， 产 生 序号 的 一 般 方法 是 使 用 一 个 顺序 者 进程 。 但 是 ， 在 一 个 高 


[628] 可 用 性 环境 中 ， 依 赖 某 个 进程 的 可 靠 性 是 不 够 的 。 解 决 方法 是 在 任何 时 候 都 指派 一 个 主 副 本 管理 
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器 作为 顺序 者 ， 当 主 副本 管理 器 出 故障 时 ， 可 以 选择 另 一 个 副本 管理 器 能 替代 成 为 顺序 者 。 这 就 
要 求 对 于 大 多 数 的 副本 管理 器 (包括 主 副本 管理 器 ) 在 其 操作 被 执行 前 ， 记 录 下 哪个 更 新 是 下 一 
个 操作 。 那 么 ， 只 要 大 多 数 副 本 管理 器 未 出 现 故障 ， 就 能 从 存活 的 副本 管理 器 中 选 出 新 的 主 副本 
管理 器 ， 从 而 实现 这 个 排序 决定 。 

相对 于 强制 更 新 ， 即 时 更 新 是 通过 使 用 主 副 本 管理 器 来 对 更 新 序列 进行 排序 。 主 副本 管理 器 
也 决定 了 哪个 因果 更 新 被 认为 在 一 个 即时 更 新 之 前 。 它 通过 与 其 他 副本 管理 器 的 通信 和 同步 来 完 
成 这 工作 ， 进 一 步 的 细节 见 Ladin 等 的 文章 [1992]。 

gossip 消 息 ”副本 管理 器 可 以 发 送 包 含 一 个 或 多 个 更 新 信息 的 gossip 消 息 ， 以 便 其 他 副本 管理 
器 更 新 它们 的 状态 。 副 本 管理 器 使 用 它 的 时 间 惟 表 里 的 记录 来 估计 其 他 副本 管理 器 还 没有 收 到 哪 
些 更 新 (由 于 副本 管理 器 可 能 收 到 了 很 多 的 更 新 ， 因 此 这 只 是 个 估计 )。 

源 副 本 管理 器 发 送 的 一 个 gossip 消 息 m 包 含 两 项 : 日 志 m.log 和 副本 时 间 殴 m.ts ( 见 图 15-8)。 
收 到 gossip 消 息 的 副本 管理 器 有 下 面 三 项 主要 任务 : 

“将 到 达 的 日 志和 它 自己 的 日 志 合 并 (m 可 能 包含 接收 者 先前 没 看 到 的 更 新 )。 

*。 执行 任何 以 前 没有 执行 并 已 经 稳定 了 的 更 新 (在 gossip 消 息 日 志 中 的 稳定 的 更 新 可 能 将 许多 

未 执行 的 更 新 变 得 稳定 )。 

* 当 知道 更 新 已 执行 并 且 已 经 没有 被 重复 执行 的 危险 时 ， 删 除 日 志和 已 执行 操作 表 中 的 记录 。 

从 日 志和 已 执行 操作 表 中 删除 宛 余 条 目 非 常 重要 ， 否 则 它们 将 无 限制 地 增长 。 

将 包含 在 gossip 消 息 中 的 日 志和 接收 者 的 日 志 进 行 合并 是 非常 简单 的 。 设 replicas7S 表 示 接 收 
者 的 副本 时 间 规 。m.log 中 的 记录 r 被 加 到 接收 者 的 日 志 中 ， 除 非 r.ts < replicsTS 一 一 此 时 ， 它 已 存 
在 于 日 志 中 或 已 经 被 执行 且 被 丢弃 了 。 

副本 管理 器 将 收 到 的 消息 中 的 时 间 堆 和 它 自己 的 复制 时 间 玲 replicaT$ 合 并 ， 以 便 与 日 志 的 增 
加 相 一 致 . 


replicaTS := merge{replicaTS, m.ts) 


当 新 的 更 新 记录 被 并 入 日 志 时 ， 副 本 管理 器 将 确定 日 志 中 所 有 已 稳定 的 更 新 集合 $。 这 些 更 新 
可 以 执行 ， 但 必须 仔细 考虑 它们 执行 的 次 序 ， 以 维持 发 生 在 先 关 系 。 根 据 向 量 时 间 惟 间 的 偏 序 
“ <"， 副 本 管理 器 对 集合 中 的 更 新 进行 排序 ， 然 后 它 以 这 种 次 序 来 执行 更 新 ， 即 当 且 仅 当 没 有 5ES 
满足 s.prev < r.prevy 时 ， 才 有 rES。 

副本 管理 器 然后 在 日 志 中 查找 可 丢弃 的 条 目 。 如 果 gossip 消 息 由 副本 管理 器 j 发 送 并 且 rable7S 
是 这 个 副本 管理 器 的 副本 时 间 戳 表 ， 那 么 副本 管理 器 设置 ， 

tableTSU] := m.ts 

对 于 任何 一 个 副本 管理 器 都 已 收 到 的 更 新 ， 该 副本 管理 器 现在 能 够 丢弃 日 志 中 的 记录 r。 也 就 
是 说 ， 如 果 c 是 创建 这 个 记录 的 副本 管理 器 ， 那 么 我 们 要 求 所 有 的 副本 管理 器 i: 

rableTS|illc| > r.tslc] 

gossip 体 系 结构 同样 定义 了 副本 管理 器 如 何 删除 已 执行 操作 表 中 的 条 目 。 值 得 指出 的 是 ， 操 作 
不 能 过 早 删除 ， 否 则 一 个 延迟 过 长 的 操作 将 被 错误 地 执行 两 次 。Ladin 等 人 [1992] 提 供 了 该 方案 的 
细节 。 实 质 上 ， 前 端 会 发 出 对 更 新 的 应 答 的 确认 ， 所 以 副本 管理 器 知道 前 端 何 时 会 停止 发 送 更 新 。 
它们 假定 了 最 大 的 更 新 传播 延 时 。 

更 新 传播 ”gossip 体 系 结构 并 不 指定 何 时 副本 管理 器 相互 交换 gossip 消 息 ， 也 不 指定 某 个 副本 
管理 器 如 何 选择 接收 gossip 消 息 的 其 他 的 副本 管理 器 。 如 果 所 有 的 副本 管理 器 要 在 一 个 可 接收 的 时 
间 内 收 到 所 有 的 更 新 ， 必 须要 有 一 个 健壮 的 更 新 传播 策略 。 

所 有 副本 管理 器 收 到 某 个 给 定 更 新 所 花费 的 时 间 取决 于 三 个 因素 : 
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。 网 络 分 区 的 频率 和 持续 期 间 。 

。 副 本 管理 器 发 送 gossip 消 息 的 频率 。 

。 选 择 一 个 副本 管理 器 并 与 之 交换 gossip 的 策略 。 

第 一 个 因素 不 由 系统 控制 ， 尽 管用 户 可 以 在 一 定 程度 上 决定 他 们 离线 工作 的 频率 。 

合适 的 gossip 交 换 频率 由 应 用 决定 。 考 虑 一 个 由 许多 站 点 共享 的 电子 公告 板 系统 ， 每 个 条 目 看 
来 并 不 需要 立刻 分 派 到 所 有 的 站 点 。 但 是 如 果 gossip 要 经 过 很 长 的 时 间 才 交换 一 次 ， 比 如 一 天 ， 那 
么 会 如 何 呢 ? 如 果 只 使 用 因果 更 新 ， 那 么 很 可 能 ， 每 一 个 站 点 上 的 客户 在 同一 个 电子 公告 板 上 有 
它们 自己 的 一 致 的 讨论 ， 而 不 考虑 其 他 站 点 上 的 讨论 。 然 后 在 深夜 ， 所 有 的 讨论 将 被 合并 。 但 是 
当 要 考虑 其 他 人 的 讨论 时 ， 针 对 同一 话题 的 讨论 很 容易 不 一 致 。 在 这 个 例子 中 ，gossip 交 换 的 周期 
按 小 时 或 分 钟 计 将 更 合适 。 

人 们 还 提出 一 些 选择 合作 者 的 策略 。Golding 和 Long[1993] 在 他 们 的 著作 “基于 时 间 惟 的 反 焙 
协议 ”(timestamped antientropy protocol) 中 使 用 了 一 个 gossip 风 格 的 更 新 传播 机 制 ， 考 虑 了 随机 、 
确定 和 拓扑 策略 。 

随机 策略 以 随机 的 方式 选择 一 个 合作 者 ， 但 是 使 用 了 加 权 概 率 来 选择 更 合适 的 合作 者 。 例 如 ， 
邻近 的 合作 者 优 于 远 距 离 的 合作 者 。Golding 和 Long[1993] 发 现 ， 这 种 策略 在 模拟 环境 中 工作 得 非 
常 好 。 确 定性 策略 使 用 副本 管理 器 的 状态 的 一 个 简单 函数 来 选择 合作 者 。 例 如 ， 一 个 副本 管理 器 
可 以 检查 它 的 时 间 截 表 ， 选 择 看 上 去 在 它 收 到 的 更 新 中 位 于 最 后 的 那个 副本 管理 器 。 

拓扑 策略 将 副本 管理 器 安排 为 一 个 固定 图 。 一 种 可 能 性 是 安排 为 网 格 (mesh)， 副本 管理 器 将 
gossip 消 息 发 送 到 它 连接 到 的 4 个 副本 管理 器 。 另 一 种 方案 是 将 副本 管理 器 组 织 为 一 个 环 ， 每 个 管 
理 器 只 将 gossip 消 息 传 给 它 的 邻居 (比如 ， 以 顺 时 针 方 向 )， 这 样 任何 一 个 副本 管理 器 的 更 新 将 遍 
历 整个 环 。 还 有 其 他 一 些 可 能 的 拓扑 结构 ， 如 树 。 

这 些 合 作者 选择 策略 必须 权衡 通信 量 和 高 传播 延 时 ， 以 及 某 个 故障 对 其 他 副本 管理 器 产生 影 
响 的 可 能 性 。 实 际 中 的 选择 和 这 些 因 素 密切 相关 。 例 如 ， 环 拓扑 将 产生 较 小 的 通信 量 ， 但 可 能 造 
成 高 延 时 ， 因 为 gossip 消 息 通常 要 遍历 若干 个 副本 管理 器 。 而 且 ， 如 果 某 个 副本 管理 器 出 现 故 障 ， 
那么 整个 环 都 不 能 正常 工作 ， 而 需要 重新 配置 。 比 较 而 言 ， 随 机 选择 策略 不 易 受 故障 影响 ， 但 它 
的 更 新 传播 时 间 可 能 会 变化 。 

有 关 gossip 体 系 结构 的 讨论 ”gossip 体 系 结构 的 目标 是 保证 服务 的 高 可 用 性 。 在 这 种 情况 下 ， 
即使 客户 落 到 一 个 网 络 分 区 中 ， 只 要 至 少 有 一 个 副本 管理 器 在 这 个 分 区 中 能 工作 ， 该 客户 就 能 继 
续 获 得 服务 。 但 是 这 种 可 用 性 的 代价 是 必须 遵守 松弛 的 一 致 性 。 对 银行 账户 这 样 的 对 象 ， 顺 序 一 
致 性 是 必须 的 ，gossip 体 系 结构 不 会 比 15.3 节 研究 的 容错 系统 表现 得 更 好 ，gossip 系 统 仅 在 一 个 主 
分 区 中 提供 服务 。 

更 新 传播 的 惰性 方法 使 一 个 基于 gossip 的 系统 不 适合 接近 实时 的 更 新 复制 ， 例 如 用 户 参加 一 个 
“实时 ”会 议 并 更 新 一 个 共享 文档 。 在 这 种 情况 下 更 合适 使 用 一 个 基于 组 播 的 系统 。 

gossip 系 统 的 可 伸缩 性 是 另 一 个 问题 。 随 着 副本 管理 器 数量 的 增长 ， 需 要 传递 的 gossip 消 息 的 
数量 和 使 用 的 时 间 葵 的 大 小 也 在 增长 。 在 一 个 客户 进行 查询 时 ，( 在 前 端 和 副本 管理 器 之 间 ) 通常 
需要 两 个 消息 。 如 果 一 个 客户 进行 一 个 因果 序 的 更 新 操作 ， 并 且 R 个 副本 管理 器 都 在 gossip 消 息 中 
收集 G 个 更 新 ， 那 么 交换 的 消息 数量 为 2+ (R 一 1) / G。 式 中 的 第 一 项 代表 前 端 和 副本 管理 器 之 间 的 
通信 次 数 ， 第 二 项 是 发 送 到 其 他 副本 管理 器 的 gossip 消 息 的 更 新 消息 。 提 高 G 有 助 于 减少 消息 数量 ， 
但 它 会 使 传递 延 时 变 长 ， 因 为 副本 管理 器 在 传播 消息 前 要 等 待 更 多 的 更 新 到 达 。 

为 了 增强 基于 gossip 的 服务 的 可 伸缩 性 ,一 个 方法 是 将 大 多 副本 管理 器 设置 为 只 读 的 。 换 言 之 ， 
这 些 副 本 管理 器 只 通过 gossip 消 息 进行 更 新 ， 并 不 直接 从 前 端 接收 更 新 。 当 更 新 /查询 率 很 小 时 ， 
这 是 非常 有 用 的 。 只 读 副本 管理 器 可 以 靠近 客户 组 ， 更 新 可 由 相对 少 的 中 央 副 本 管理 器 完成 。 因 
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为 只 读 副 本 管理 器 没有 gossip 消 息 传播 ， 所 以 gossip 流 量 会 降低 。 同 时 向 量 时 间 礁 只 需要 包含 那些 
更 新 副本 的 条 目 。 


15.4.2 Bayou 系 统 和 操作 变换 方法 


Bayou 系 统 [Terry et al. 1995, Petersen et al. 1997] 通 过 数据 复制 获得 高 可 用 性 ， 类 似 于 gossip 体 
系 结构 和 基于 时 间 蕉 的 反 箭 协议 ， 但 Bayou 系 统 提 供 的 一 致 性 保证 弱 于 顺序 一 致 性 。 与 那些 系统 类 
似 ，Bayou 的 副本 管理 器 通过 成 对 地 交换 更 新 来 处 理 变化 的 网 络 连接 ， 设 计 者 也 将 这 种 交换 方式 称 
为 反 炉 协议 。 但 Bayou 采 用 了 一 个 非常 不 同 的 方法 ， 它 能 够 进行 领域 特定 的 冲突 检测 和 冲突 解决 。 

考虑 一 个 离线 工作 时 需要 更 新 日 记 的 用 户 。 如 果 需 要 严格 的 一 致 性 ， 在 gossip 体 系 结构 中 ， 更 
新 必须 用 强制 的 (全 序 ) 操作 执行 。 但 那样 的 话 ， 只 有 主 分 区 中 的 用 户 可 以 更 新 日 记 。 用 户 对 日 
记 的 访问 将 受 限 一 一 不 考虑 实际 上 他 们 是 否 需 要 做 会 破坏 日 记 完整 性 的 更 新 。 预 定 不 冲突 约会 的 用 
户 和 无 意 中 在 一 个 时 间 段 进行 两 次 预约 的 用 户 会 被 一 视 同仁 。 

相 比 之 下 ， 在 Bayou 中 ， 火 车 上 的 用 户 和 办 公 室 中 的 用 户 都 可 以 进行 他 们 希望 的 任何 更 新 。 所 
有 更 新 将 被 应 用 ， 并 且 记 录 到 它们 到 达 的 副本 管理 器 中 。 当 任何 两 个 副本 管理 器 接收 的 更 新 在 一 
个 反 入 期 间 合 并 时 ， 副 本 管理 器 检测 并 解决 冲突 ， 这 时 可 以 使 用 解决 操作 间 冲 突 的 特定 领域 准则 。 
例如 ， 如 果 一 个 行政 主管 和 他 的 秘书 都 在 同一 个 时 间 段 加 入 了 预约 ， 那 么 Bayou 会 在 行政 主管 重新 
连接 上 他 的 笔记 本 电脑 后 检测 到 这 个 冲突 。 此 外 ， 它 利用 领域 特定 的 策略 解决 这 个 冲突 。 在 这 种 
情况 下 ， 它 能 够 批准 行政 主管 的 预约 而 取消 秘书 的 预约 。 一 个 或 多 个 相 冲 突 的 操作 被 取消 或 改变 
以 解决 种 罕 的 过 程 被 称 为 操作 变换 。 

Bayou 复 制 的 状态 以 数据 库 的 形式 保存 ， 它 支持 查询 和 更 新 (可 以 在 数据 库 中 插入 、 修 改 和 删 
除 条 目 ) 。 尽 管 我们 不 将 注意 力 集中 在 这 一 方面 ， 但 Bayou 更 新 是 事务 的 一 种 特殊 情况 。 它 由 单个 
操作 组 成 ， 是 一 个 “存储 过 程 ”调用 ， 它 影响 着 每 个 副本 管理 器 中 的 一 些 对 象 ， 但 它 遵循 ACID 保 
证 。 在 执行 过 程 中 ，Bayou 可 以 取消 和 重 做 对 数据 库 的 更 新 。 

Bayou 保 证 最 终 每 个 副本 管理 器 将 收 到 相同 的 更 新 集合 ， 副 本 管理 器 最 终 将 以 同一 种 方式 应 用 
这 些 更 新 ， 这 种 方式 使 副本 管理 器 的 数据 库 是 相同 的 。 实 际 上 ， 可 能 有 一 个 连续 的 更 新 流 ， 数 据 
库 也 永远 不 会 相同 。 但 如 果 一 旦 停止 更 新 ， 数 据 库 将 变 得 相同 。 

提交 的 更 新 和 临时 更 新 ” 当 更 新 首次 应 用 于 数据 库 时 ， 它 们 被 标记 为 临时 的 。Bayou 最 终 将 临 
时 的 更 新 以 规范 次 序 放置 并 标记 为 提交 的 。 在 更 新 为 临时 的 情况 下 ， 系 统 可 取消 和 重复 更 新 ， 
为 系统 会 产生 一 个 一 致 的 状态 。 一 旦 提交 ， 它 们 将 按 规定 的 顺序 保留 其 效果 。 实 际 中 ， 可 以 通过 
将 某 些 副 本 管理 器 设 为 主 副本 管理 器 来 获得 提交 的 次 序 。 通 常 ， 这 决定 提交 的 次 序 为 它 收 到 临时 
的 更 新 并 且 传 播 排序 信息 给 其 他 的 副本 管理 器 。 例 如 ， 对 于 主 副 本 管理 器 ， 用 户 可 以 选择 一 个 通 
常 可 用 的 快速 机 器 。 同 样 ， 如 果 用 户 更 新 占有 优先 权 的 话 ， 主 副本 管理 器 可 以 是 行政 主管 的 笔记 
本 电脑 上 的 副本 管理 器 。 

在 任何 时 刻 ， 数 据 库 副 本 的 状态 来 自 一 个 (可 能 空 的 ) 提交 的 更 新 序列 ， 后 跟着 一 个 (可 能 
空 的 ) 临时 的 更 新 序列 。 如 果 第 二 个 更 新 到 
达 ， 或 如 果 某 个 临时 更 新 已 经 被 执行 变 为 下 
一 个 提交 的 更 新 ， 那 么 必须 对 更 新 进行 重 排 coleole,l... 
序 。 在 图 15-9 中 ，i 已 经 变 为 提交 的 。ch 后 的 下 加 加 
所 有 更 新 都 必须 撤销 。 然 后 ，5 在 cw 后 执行 ， 

并 且 一 和 和 x ,等 在 t 后 被 重新 执行 。 临时 更 新 4 成 为 下 一 个 提交 更 新 ， 
依赖 检查 和 合并 过 程 ”-- 个 更 新 可 能 和 并 被 插入 到 最 新 提交 更 新 cv 之 后 。 
已 经 执行 的 其 他 操作 相 冲 突 。 考 虑 到 这 种 可 图 15-9 Bayou 中 的 提交 更 新 和 临时 更 新 





已 提交 临时 











~ 





人 


402 第 15 便 





能 性 ， 除 了 操作 规约 (包括 操作 类 型 和 参数 ) 外 ， 每 一 个 Bayou 更 新 还 包含 一 个 依赖 检查 和 一 个 合 
并 过 程 。 所 有 这 些 更 新 的 组 件 都 是 领域 特定 的 。 

一 个 副本 管理 器 在 执行 操作 前 调用 依赖 检查 过 程 。 该 过 程 用 来 检查 是 否 一 个 更 新 执行 时 会 产 
生 冲 突 ， 为 检查 冲突 ， 它 可 能 检查 数据 库 的 任何 部 分 、 例 如 ， 考 虑 在 日 记 中 登记 一 个 预约 的 情况 。 
最 简单 的 情况 是 ， 依 赖 检 查 可 以 检查 写 - 写 冲突 ， 即 是 否 另外 一 个 客户 已 经 占据 了 需要 的 时 间 段 。 
依赖 检查 还 能 检查 读 -- 写 冲突 。 例 如 ， 它 能 检查 所 需 的 时 间 段 是 空 的 ， 并 且 那 天 的 预约 少 于 6 个 。 

如 果 依赖 检查 发 现 了 一 个 冲突 ， 那 么 Bayou 将 调用 操作 的 合并 过 程 。 该 过 程 会 改变 将 要 执行 的 
操作 以 获得 相似 效果 ， 但 避免 了 冲突 。 例 如 ， 就 日 记 来 说 ， 合 并 过 程 可 以 选择 相近 的 另 一 个 时 间 
段 ， 或 者 就 像 我 们 上 面 提 到 的 ， 它 可 以 使 用 一 个 简单 的 优先 级 方案 以 决定 哪个 预约 更 重要 ， 然 后 
留 下 重要 的 预约 。 合 并 过 程 可 能 无 法 找到 一 个 操作 的 合适 替代 ， 这 种 情况 下 系统 将 报错 。 然 而 合 
并 过 程 的 影响 是 确定 的 一 一 Bayou 副 本 管理 器 是 状态 机 。 

讨论 ”Bayou 和 其 他 复制 方案 的 不 同 之 处 在 于 它 使 得 复制 对 于 应 用 而 言 是 不 透明 的 。 它 利用 应 
用 语义 的 知识 提高 数据 的 可 用 性 ， 同 时 维持 一 个 复制 状态 ， 我 们 称 之 为 最 终 顺 序 一 致 性 。 

这 种 方法 的 不 足 之 处 首先 在 于 增加 了 应 用 程序 员工 作 的 复杂 度 ， 他 必须 提供 依赖 检查 和 合并 
过 程 。 当 需要 检查 并 解决 大 量 可 能 的 冲突 时 ， 生 成 这 两 者 非常 复杂 。 第 二 个 不 足 是 增加 了 用 户 工 
作 的 复杂 度 。 用 户 不 仅 要 处 理 所 读 的 临时 数据 ， 而 且 用 户 指定 的 操作 可 能 被 改变 。 例 如 ， 用 户 在 
日 记 中 登记 了 一 个 时 间 段 ， 后 来 却 发 现 登记 已 经 “ 跳 ” 到 了 邻近 的 一 个 时 间 段 。 应 给 用 户 一 个 清 
晰 的 指示 ， 说 明 哪些 数据 是 临时 的 ， 哪 些 数据 是 提交 的 ， 这 - -点 非常 重要 。 

Bayou 使 用 的 操作 变换 方法 用 于 支持 CSCW (计算 机 支持 的 协同 工作 ) 的 计算 机 系统 中 ， 该 系 
统 中 地 理 上 分 离 的 用 户 可 能 发 生 更 新 冲突 [Kindberg et al. 1996, Sun and Eills 1998]。 该 方法 的 实际 
应 用 限于 冲突 较 少 的 应 用 、 基 本 数据 语义 较 简 单 的 应 用 以 及 用 户 可 以 处 理 临时 信息 的 应 用 。 


15.4.3 Coda 文 件 系统 


Coda 文 件 系统 的 前 身 是 AFS 系 统 (参见 第 8.4 节 )， 其 目标 是 解决 一 些 AFS 不 能 解决 的 需求 ， 特 
别 是 除 断 链 操作 外 的 高 可 用 性 的 要 求 。 它 是 CMU 的 Satyanarayanan 及 其 合作 者 承担 的 ~ 个 研究 项 目 
[Satyanarayanan et al. 1990; Kistler and Satyanarayanan 1992]。Coda 的 设计 需求 来 源 于 CMU AFS 项 
目 和 其 他 一 些 对 局 域 网 、 广 域 网 上 的 大 型 分 布 式 系统 的 使 用 经 验 。 

尽管 在 CMU 的 使 用 经 验 中 发 现 ，AFS 系 统 的 性 能 和 易 管理 性 令 人 满意 ， 但 是 由 于 AFS 只 能 
供 非常 有 限 的 复制 (只 限于 只 读 卷 )， 使 它 的 规模 受 限 ， 不 适用 于 访问 大 规模 共享 的 文件 ， 如 电子 
公告 板 系 统 和 其 他 系统 范围 的 数据 库 。 

另外 ，AFS 提 供 的 服务 仍然 有 提升 可 用 性 的 空间 。AFS 用 户 所 经 历 的 最 常见 问题 是 服务 器 和 网 
络 组 件 的 故障 (或 调度 中 断 ) 。 在 CMU 的 系统 规模 下 ， 每 天 会 发 生 一 些 服务 故障 ， 这 些 故 障 在 几 分 
钟 到 数 小 时 内 给 用 户 造 成 了 极 大 的 不 便 。 

最 后 ，AFS 没 有 迎合 计算 机 使 用 的 一 种 新 趋势 一 -便携 式 计算 机 的 移动 使 用 。 这 种 趋势 导致 了 
王 列 需求 : 在 计算 机 断 链 时 ， 用 户 不 必 借助 手工 方式 管理 文件 的 位 置 ， 而 是 能 继续 自己 的 工作 。 

Coda 就 是 为 满足 这 三 个 需求 而 开发 的 ， 这 三 个 需求 流 称 为 稳定 的 数据 可 用 性 。 目 标 是 提供 一 
个 共享 文件 存储 ， 并 且 在 该 存储 全 部 或 部 分 不 可 访问 时 可 完全 依赖 本 地 资源 继续 操作 计算 机 
Coda 保 留 了 AEFS 原 来 的 目标 ， 包 括 可 伸缩 性 和 仿真 UNIX 文 件 语义 。 

AFS 的 读 写 卷 存储 在 一 个 服务 器 上 ， 与 之 相 比 ，Coda 通 过 文件 卷 复制 技术 来 提高 文件 访问 操 
作 的 吞吐 率 和 系统 的 容错 性 。 另 外 ， Coda 扩 展 了 AFS 使 用 的 在 客户 计算 机 上 缓存 文件 副本 的 机 制 ， 
使 客户 在 未 与 网 络 连 接 时 仍然 能 够 继续 操作 。 

我 们 在 下 文中 将 看 到 ，Coda 类 似 于 Bayou 系 统 (参见 15.4.2 节 )， 它 也 采用 了 乐观 策略 。 也 就 
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是 说 ， 它 允许 客户 在 有 网 络 分 区 的 情况 下 更 新 数据 ， 只 要 冲突 发 生 的 可 能 性 较 小 并 且 冲 突 可 随后 
修正 。 与 Bayou 类 似 ，Coda 使 用 了 冲突 检测 ， 但 与 Bayou 不 同 的 是 ， 它 在 进行 检测 时 不 考虑 数据 语 
义 ， 并 且 它 为 解决 副本 之 间 的 冲突 只 提供 了 非常 有 限 的 系统 支持 。 

Coda 体 系 结构 ”按照 AFS 的 术语 ，Coda 在 客户 计算 机 上 运行 的 进程 称 为 Venus 进 程 ， 在 文件 
服务 器 上 运行 的 进程 称 为 Vice 进 程 。Vice 进 程 就 是 我 们 所 说 的 副本 管理 器 ，Venus 进 程 是 前 端 和 副 
本 管理 器 的 混合 体 。 它 们 扮演 前 端的 角色 ， 将 服务 的 实现 隐藏 在 本 地 客户 进程 中 。 由 于 它们 管理 
文件 的 一 个 本 地 缓存 ， 因 此 尽管 它们 和 Vice 进 程 类 型 有 所 不 同 ， 它 们 仍 是 副本 管理 器 。 

持 有 一 个 文件 卷 副 本 的 服务 器 集合 称 为 卷 存储 组 (VSG)。 在 任何 时 候 ， 和 希望 在 这 样 的 卷 中 打 
开 一 个 文件 的 客户 能 访问 的 VSG 某 个 子 集 ， 该 子 集 被 称 为 可 用 的 卷 看 储 组 〈(AVSG)。 由 于 网 络 或 
服务 故障 使 服务 器 变 得 可 访问 或 不 可 访问 ，AVSG 的 成 员 关 系 也 在 变化 。 

正常 情况 下 ，Coda 文 件 访问 过 程 和 AFS 的 文件 访问 过 程 相似 。 当 前 AVSG 中 的 任何 一 个 服务 器 
提供 文件 的 缓存 拷贝 给 客户 计算 机 。 在 AFS 中 ， 通 过 一 个 回调 承诺 机 制 ， 客 户 被 告知 文件 的 变化 ， 
而 Coda 依 靠 一 个 附加 机 制 对 每 个 副本 管理 器 进行 更 新 分 布 。 当 文件 关闭 时 ， 修 改过 的 拷贝 并 行 广 
播 到 AVSG 中 的 所 有 服务 器 。 

在 Coda 中 ， 断 链 操作 被 认为 发 生 于 AVSG 为 空 时 。 这 可 能 是 由 于 网 络 或 服务 器 故障 造成 的 ， 
也 可 能 是 客户 计算 机 〈 比 如 一 台 笔 记 本 电脑 ) 有 意 离线 的 结果 。 断 链 操作 的 有 效 性 依赖 于 客户 计 
算 机 缓存 中 是 否 有 用 户 继续 工作 所 需 的 所 有 文件 。 为 了 保证 这 一 点 ， 用 户 必 须 和 Coda 系 统合 作 以 
产生 应 该 缓存 的 文件 列表 。Coda 提 供 了 一 个 工具 ， 用 它 来 记录 网 络 连接 时 文件 使 用 的 历史 表 ， 并 
以 这 个 表 为 基础 预测 离线 时 要 使 用 的 文件 。 

Coda 的 一 个 设计 原则 是 服务 器 上 的 文件 拷贝 比 客户 计算 机 缓存 中 的 拷贝 更 可 靠 。 尽 管 逻辑 上 
有 可 能 构造 一 个 文件 系统 ， 使 其 完全 依靠 客户 计算 机 上 缓存 的 文件 拷贝 ， 但 这 样 的 系统 不 大 可 能 
提供 令 人 满意 的 服务 质量 。Coda 服 务 器 的 目标 是 提供 必要 的 服务 质量 。 客 户 计 算 机 缓存 中 的 文件 
拷贝 被 认为 是 有 效 的 ， 只 要 它们 的 当前 数据 能 定期 与 服务 器 上 的 拷贝 进行 验证 。 在 断 链 操 作 的 情 
况 下 ， 重 新 验证 在 断 链 操作 停止 并 且 将 缓存 文件 和 服务 器 上 的 文件 重新 整合 时 发 生 。 最 坏 情况 下 ， 
需要 一 些 手工 干预 来 解决 不 一 致 或 冲突 。 

复制 策略 Coda 的 复制 策略 是 乐观 的 一 一 在 网 络 分 区 和 断 链 操作 期 间 , 仍然 可 以 进行 文件 修改 。 
它 依 靠 每 个 版 本 的 文件 上 附加 的 Coda 版 本 向 量 (CVV)。CVV 是 一 个 向 量 时 间 改 ， 其 中 每 一 个 元 
素 对 应 着 在 相关 VSG 中 的 每 个 服务 器 。CVV 中 的 每 个 元 素 是 一 个 估计 值 ， 是 服务 器 上 文件 的 修改 
次 数 的 估计 。CVV 的 目的 是 提供 足够 的 关于 每 个 文件 副本 的 更 新 历史 ， 使 得 能 够 检测 出 潜在 的 神 
突 、 提 交手 工 干预 和 提交 对 过 时 复制 的 自动 更 新 。 

如 果 一 个 站 点 的 CVV 大 于 或 等 于 所 有 其 他 站 点 相应 的 CVV (11.4 池 给 出 了 对 于 向 量 时 间 改 mw 和 
“而 言 % > v2 的 定义 )， 那 么 不 会 发 生 冲 突 。 旧 的 副本 (有 严格 小 的 时 间 截 ) 包括 一 个 较 新 的 副本 
中 的 所 有 更 新 ， 于 是 它们 可 以 自动 地 将 数据 更 新 。 

如 果 不 是 这 种 情况 ， 对 于 两 个 CVY， 即 当 w > vs 和 v。 > v1 均 不 成 立时 ， 表 示 存 在 一 个 冲突 ; 
每 个 副本 至 少 反 映 了 其 他 副本 没 反映 的 一 个 更 新 。 一 般 情况 下 ，Coda 不 会 自动 解决 冲突 。 文 件 被 
标记 为 “不 可 操作 ”并 且 向 文件 所 有 者 告知 有 冲突 。 

当 一 个 修改 的 文件 关闭 后 ， 由 客户 的 Venus 进程 发 送 一 个 更 新 消息 (包括 当前 的 CVV 和 文件 的 
新 内 容 ) 到 当前 的 AVSG 中 的 每 一 个 站 点 。 每 个 站 点 的 Vice 进 程 检查 CVV， 如 果 这 个 CVV 比 当前 
它 持 有 的 CVV 大 ， 则 存储 文件 新 内 容 并 返回 一 个 肯定 的 确认 。 然 后 Venus 进 程 计算 一 个 新 的 CVV : 
对 更 新 消息 进行 肯定 应 答 的 服务 器 ， 增 加 它 的 修改 记 数 ， 并 且 发 布 新 的 CVV 给 AVSG 中 的 成 员 。 

由 于 消息 仅仅 发 送 给 AVSG 的 成 员 而 不 是 VSG 的 成 员 ， 因 此 不 在 当前 AVSG 中 的 服务 器 收 不 到 
新 的 CVV 。 因 此 ， 对 本 地 服务 器 ，CVV 经 常 包含 一 个 准确 的 修改 记 数 ， 但 对 于 非 本 地 的 记 数 一 般 
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是 更 小 些 的 下 界 ， 因 为 仅 当 服务 器 收 到 一 个 更 新 消息 时 它们 才 更 新 。 
下 面 的 例子 说 明了 在 三 个 站 点 上 使 用 CVV 来 管理 文件 副本 的 更 新 。 可 以 在 [Satyanarayanan et al. 1990] 
中 找到 使 用 CVV 管 理 更 新 的 更 多 细节 。CVV 基 于 Locus 系 统 使 用 的 复制 技术 [Popek and Walker 1985]。 


例子 : 考虑 对 卷 中 的 文件 F 的 一 个 修改 序列 ， 它 在 三 个 服务 器 S,、S: 和 S:; 上 有 副本 。 对 于 F 
的 VSG 是 {5,， S,, S3}。 F 在 同一 时 间 被 两 个 客户 C, 和 C, 修 改 。 由 于 网 络 故 障 ， C, 仅 能 访问 S$, 和 
S$:， (CI 的 AVSG 是 {S,，S:}) ，C, 仅 能 访问 S，(C, 的 AVSG 是 {5S,})。 

1) 起 初 ，F 的 CVV 在 3 个 服务 器 上 是 相同 的 ， 比 如 [1，1，11]。 

2) Ci 运行 一 个 进程 ， 它 打开 F， 修 改 F， 然 后 关闭 。C, 的 Venus 进 程 将 一 个 更 新 消息 广播 
给 它 的 AVSG， 即 {S,，S2}。 最 后 产生 F 的 一 个 新 的 版 本 和 S,、S， 上 的 一 个 CVV[2，2，1], 但 
没有 在 S; 上 出 现任 何 改 变 。 

3) 同时 ，C2 运 行 两 个 进程 ， 每 一 个 进程 都 打开 F， 修 改 F， 然 后 关闭 。 在 每 一 次 修改 后 ， 
C: 的 Venus 进程 广播 一 个 更 新 消息 到 它 的 AVSG， 即 {S;}。 最 后 ， 产 生 了 F 的 一 个 新 的 版 本 和 8$; 
上 的 一 个 CVV[1，1，3]。 

4) 在 以 后 的 某 个 时 间 ， 网 络 故 障 修复 ，C, 通 过 某 个 例 程 检查 以 前 VSG 的 不 可 访问 的 成 员 
是 否 变 成 可 达 的 了 (进行 这 个 检查 的 进程 在 稍 后 描述 }， 发 现 $, 和 S$; 现 在 可 达 了 。 故 包含 F 的 卷 
修改 它 的 AVSG 为 {S!,，S,，，S;}， 并 且 从 新 的 AVSG 的 所 有 成 员 请 求 CVV。 当 它们 到 达 时 ，C， 
发 现 S, 和 S, 每 一 个 都 有 CVV[2，2，1]， 而 $5 有 [1，1，3]。 这 是 一 个 冲突 ， 需 要 手工 于 预 以 使 F 
能 以 信息 丢失 最 少 的 方式 进行 更 新 。 

另 一 方面 ， 考 虑 一 个 相似 但 是 更 简单 的 情况 ， 即 事件 顺序 相同 ， 但 删 去 了 第 3 条 ， 所 以 F 没 
被 C; 修 改 。S; 上 的 CVV 因此 没有 变化 ， 还 是 [1，1，1]。 当 网 络 故 障 修复 后 ，C; 发 现 S, 和 8S; 的 
CYV(2，2，H) 控 制 了 S:。S;! 或 S: 的 文件 的 版 本 应 该 替代 S; 上 的 文件 版 本 。 


在 正常 的 操作 中 ，Coda 的 行为 和 AFS 相 似 。 一 次 缓存 访问 未 命中 ， 对 于 用 户 而 言 是 透明 的 ， 
并 且 仅仅 是 性 能 上 的 问题 。 在 多 个 服务 器 上 复制 某 些 或 全 部 文件 卷 ， 所 获得 的 好 处 有 ， 

* 对 于 至 少 可 以 访问 一 个 副本 的 客户 ， 可 访问 一 个 复制 卷 上 的 文件 。 

“ 系统 中 的 性 能 可 以 通过 分 担 客户 请 求 的 服务 负荷 得 到 提高 。 这 个 请 求 作用 于 所 有 具有 副本 的 

服务 器 的 一 个 复制 卷 上 。 

在 断 链 操作 (客户 不 能 访问 卷 中 的 任何 服务 器 ) 中 ， 一 次 缓存 访问 未 命中 会 阻止 进一步 的 操 
作 ， 计 算 被 挂 起 直到 重新 连接 上 或 用 户 放弃 了 进程 。 因 此 ， 在 断 链 操作 开始 前 加 载 缓存 非常 重要 ， 
这 样 可 以 避免 缓存 访问 未 命中 。 : 

简 而 言 之 ， 和 AFS 相 比 ，Coda 通 过 文件 在 多 个 服务 器 上 复制 和 客户 能 在 缓存 范围 之 外 操作 ， 
改善 了 可 用 性 。 两 种 方法 都 取决 于 乐观 策略 的 使 用 ， 从 而 在 有 网 络 分 区 的 情况 下 检测 出 更 新 冲突 。 
这 两 种 机 制 既 是 相互 补充 的 ， 又 是 相互 独立 的 。 例 如 ， 一 个 用 户 可 以 利用 断 链 操作 的 好 处 ， 即 使 
需要 的 文件 卷 被 存储 在 单个 服务 器 上 。 

更 新 语义 当 客 户 打开 一 个 文件 时 ，Coda 提 供 的 传播 保证 比 AFS 要 弱 ， 这 反映 了 乐观 更 新 策略 
的 特点 。 在 AFS 的 传播 保证 中 的 单个 服务 器 S 被 服务 器 集合 5 (文件 的 VSG) 代替 ， 客 户 C 可 以 访问 
s 的 一 个 子 集 (C 看 到 的 文件 的 AVSG)。 

通俗 地 说 ， 在 Coda 中 一 个 成 功 的 “open” 提 供 的 保证 如 下 : 它 从 当前 的 AVSG 中 提供 F 的 最 近 
拷贝 ,并且 如 果 没 有 服务 器 是 可 访问 的 ， 并 且 如 果 有 一 个 本 地 的 缓存 拷贝 是 可 用 的 话 ， 它 将 被 合 
用 。 一 个 成 功 的 “close” 保 证 文件 已 经 传播 给 当前 可 访问 的 服务 器 集合 ， 如 果 没 有 服务 器 可 用 ， 
这 个 文件 便 被 加 上 标记 以 便 在 第 一 时 间 传 播 出 去 。 

考虑 到 丢失 回调 的 影响 ， 通 过 扩展 在 AFS 中 应 用 的 标记 ， 可 以 产生 这 些 保证 的 更 精确 的 定义 。 
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除了 最 后 一 个 定义 外 ， 每 个 定义 都 有 两 种 情况 : 首先 ，s 二 名 ， 代 表 所 有 AVSG 不 为 空 的 情景 ， 然 
后 处 理 断 链 操作 : 
在 一 个 成 功 的 open 之 后 : (sO and (latest(F, s , 0) 
or (latest(F, 5 , T) and lostCallback (s , T) and 
inCache(F)))) 
or (s = O and inCache(F)) 
在 一 个 失败 的 open 之 后 : (s #0 and conflict (F, s )) 
or (s= O and -~ inCache(F)) 
在 一 个 成 功 的 close 之 后 : (S #3 and updated (F, s )) 
or (s= O) 
在 一 个 失败 的 close 之 后 : S 关 她 and conflict(F, s) 
上 述 模型 假定 是 一 个 同步 系统 。T 是 客户 不 知道 在 其 他 地 方 对 它 缓存 中 的 文件 做 了 一 次 更 新 的 
最 长 时 间 ，latest(F, 5, T) 指 客户 C 的 文件 F 的 当前 值 是 最 近 T 秒 s 的 所 有 服务 器 中 的 最 新 值 ， 与 该 时 
刻 F 的 拷贝 没有 冲突 。lostCallback (s, T) 指 在 最 近 T 秒 由 5 的 一 些 成 员 发 送 了 一 个 回调 ,但 在 C 端 没 
有 收 到 。conflict (F, s ) 指 当前 s 中 的 一 些 服务 器 上 的 F 值 有 冲突 。 
访问 副本 ”为 了 访问 一 个 文件 的 副本 ， 在 open 和 close 上 使 用 的 策略 是 读 一 个 / 写 所 有 方法 的 一 
个 变种 。 对 于 open， 如 果 一 个 文件 的 拷贝 并 不 在 本 地 缓存 中 ， 客 户 确定 AVSG 中 的 一 个 服务 器 作为 
首选 服务 器 。 首 选 服务 器 可 以 随机 选择 ， 也 可 以 基于 性 能 准则 (比如 物理 上 接近 或 根据 服务 器 负 
荷 ) 进行 选择 。 客 户 从 一 个 首选 服务 器 上 请 求 一 个 文件 属性 和 内 容 的 拷贝 ,并且 在 接收 时 检查 
AVSG 中 其 他 的 成 员 以 证 实 这 个 拷贝 是 最 新 可 用 版 本 。 如 果 不 是 ，AVSG 中 有 最 新 版 本 的 成 员 变 为 
首选 站 点 ， 文 件 内 容 将 被 重新 获取 ， 并 且 告 知 AVSG 成 员 一 些 成 员 有 过 时 的 副本 。 当 完成 读 取 时 ， 
在 那个 首选 服务 器 上 建立 一 个 回调 承诺 。 
当 客 户 的 一 个 文件 在 修改 后 关闭 时 ， 将 使 用 一 个 组 播 远程 过 程 调用 协议 将 它 的 内 容 和 属性 并 
行 传递 到 AVSG 的 所 有 成 员 。 这 将 使 一 个 文件 在 每 个 复制 站 点 都 有 当前 版 本 的 可 能 性 最 大 。 它 并 不 
确保 每 个 站 点 都 有 当前 的 版 本 ， 因 为 AVSG 并 不 包括 所 有 VSG 成 员 。 正 常情 况 下 ， 通 过 让 客户 负责 
传播 文件 的 修改 到 各 个 复制 场地 ， 可 以 将 服务 器 负载 减 到 最 小 (只 有 在 open 操 作 发 现 一 个 过 时 的 
副本 时 ， 才 需要 服务 器 帮忙 ) 。 
因为 在 所 有 的 AVSG 成 员 中 维持 回调 状态 是 非常 昂贵 的 , 所 以 回调 承诺 仅 维持 在 首选 服务 器 上 。 
但 这 样 做 引入 了 一 个 新 的 问题 ， 一 个 客户 的 首选 服务 器 并 不 在 另 一 个 客户 的 AVSG 中 。 如 果 出 现 这 
种 情况 ， 第 二 个 客户 的 一 个 更 新 将 不 会 导致 对 第 一 个 客户 的 回调 。 下 一 小 节 将 讨论 这 个 问题 的 解 
决 方法 。 
缓存 一 致 性 ”Coda 的 传播 保证 意味 着 每 个 客户 的 Venus 进 程 必须 在 下 面 事件 发 生 的 T 秒 内 检测 
到 它们 : 
* 扩 大 一 个 AVSG (由 于 一 个 先前 不 可 访问 的 服务 器 变 得 可 访问 )。 
“收缩 一 个 AVSG (由 于 一 个 服务 器 变 得 不 可 访问 )。 
。 回 调 事 件 丢 失 。 
为 了 实现 这 个 目标 ，Venus 每 隔 T 秒 发 送 一 个 探测 消息 给 文件 的 VSG 中 的 所 有 服务 器 ， 表 示 文 
件 已 经 在 它 的 缓存 中 。Venus 只 能 从 可 访问 的 服务 器 那里 收 到 应 答 。 如 果 Venus 从 一 个 先前 不 可 访 
问 的 服务 器 收 到 应 答 ， 那 么 它 会 扩大 对 应 的 AVSG 并 且 丢 弃 相 关 卷 的 文件 的 回调 承诺 ， 这 样 做 是 因 
为 缓存 中 的 拷贝 可 能 不 再 是 新 的 AVSG 中 的 最 新 可 用 版 本 了 。 
如 果 Venus 不 能 从 一 个 先前 可 访问 的 服务 器 处 接收 到 应 答 ， 则 它 收缩 对 应 的 AVSG。 并 不 需要 
对 回调 进行 修改 ， 除 非 收缩 由 丢失 一 个 首选 服务 器 引起 ， 在 这 种 情况 下 ， 那 个 服务 器 的 所 有 回调 








406 第 15 章 





承诺 必须 丢弃 。 如 果 一 个 响应 显示 已 发 送 了 一 个 回调 消息 但 没有 被 收 到 ， 那 么 相应 文件 上 的 回调 
承诺 将 被 丢弃 。 

剩 下 的 问题 是 ， 一 个 服务 器 没有 收 到 更 新 ， 因 为 该 服务 器 不 在 执行 这 个 更 新 的 另 一 个 客户 的 
AVSG 中 。 为 了 处 理 这 种 情况 ，Venus 发 送 一 个 卷 版 本 向 量 ( 卷 CVV) 响应 每 个 探测 消息 。 卷 版 本 
向 量 包含 一 个 卷 中 所 有 文件 的 CVV 的 摘要 。 如 果 Venus 检 测 到 卷 CVV 间 的 任何 不 匹配 ， 则 说 明 一 
些 AVSG 成 员 肯 定 有 一 些 过 时 的 文件 版 本 。 尽 管 过 时 的 文件 可 能 不 是 在 本 地 缓存 的 ， 但 由 于 Venus 
使 用 斐 观 的 假设 ， 因 此 会 丢弃 所 有 它 持 有 的 相关 文件 上 的 回调 承诺 。 

值得 注意 的 是 ，Venus 只 探 询 持 有 缓存 副本 的 文件 的 VSG 中 的 所 有 服务 器 ， 一 个 探 询 消息 用 于 
更 新 AVSG 并 检查 某 一 文件 卷 中 的 所 有 文件 的 回调 。 这 (再 加 上 相对 大 的 T 值 (在 实验 性 实现 中 这 
个 值 是 在 10 分 钟 的 量 级 上 )) 意味 着 探 询 消息 并 不 是 使 Coda 在 大 量 服务 器 和 广域网 方面 具有 可 伸缩 
性 的 障碍 。 

断 链 操作 如 果 出 现 短暂 的 断 链 ， 诸 如 由 于 不 可 预料 的 服务 干扰 而 导致 的 离线 ，Venus 采 用 最 
近 最 少 使 用 的 缓存 替代 策略 ， 避 免 断 链 的 文件 卷 上 的 缓存 不 命中 。 但 除非 采取 另外 的 策略 ， 否 则 ， 
一 个 客户 在 断 链 模式 下 长 期 工作 时 不 访问 不 在 缓存 的 文件 或 目录 是 不 可 能 的 。 

因此 ，Coda 人 允许 用 户 指定 一 个 文件 的 优先 级 表 和 Venus 应 该 努力 保留 在 缓存 中 的 目录 。 最 高 层 
的 对 象 被 认为 是 不 变 的 ， 它 们 必须 时 时 保持 在 缓存 中 。 如 果 本 地 硬盘 足够 大 ， 能 够 容纳 所 有 的 高 
层 对 象 的 话 ， 那 么 用 户 可 一 直 访 问 它们 。 由 于 要 精确 地 知道 某 种 次 序 的 用 户 动作 将 产生 什么 样 的 
文件 访问 是 非常 困难 的 ， 因 此 Coda 提 供 了 一 个 工具 使 得 用 户 能 够 将 动作 序列 分 组 ，Venus 记录 由 
访问 序列 生成 的 文件 引用 并 且 为 它们 标 上 一 个 给 定 的 优先 级 。 

在 断 链 操作 结束 时 ， 开 始 重 新 整合 过 程 。 对 于 每 个 在 断 链 操作 期 间 进 行 了 修改 、 创 建 或 删除 
的 缓存 文件 或 目录 来 说 ，Venus 执 行 一 系列 更 新 操作 以 使 得 AVSG 副 本 和 缓存 拷贝 相同 。 重 新 整合 
从 每 个 缓冲 文件 卷 的 根 起 自 顶 向 下 进行 。 

在 重新 整合 期 间 ， 由 于 其 他 客户 更 新 了 AVSG 副 本 ， 因 此 可 能 会 检测 到 冲突 。 一 旦 发 生 了 这 样 
的 情况 ， 缓 存 的 拷贝 被 存储 在 服务 器 上 的 一 个 临时 位 置 ， 并 且 通 知 发 起 重新 整合 的 用 户 。 这 种 方 
法 基于 Coda 采 用 的 设计 理念 ， Coda 分 配给 基于 服务 器 的 副本 的 优先 级 要 高 于 缓存 中 的 拷贝 的 优先 
级 。 人 临时 拷贝 存储 在 一 个 合作 卷 中 ， 它 和 服务 器 上 每 一 个 卷 相关 。 合 作 卷 很 像 传统 UNIX 系 统 中 的 
lost+ found 目 录 。 合 作 卷 仅 镜像 部 分 ， 用 于 存放 临时 数据 的 文件 目录 结构 。 它 并 不 怎么 需要 额外 的 
存储 ， 因 为 合作 卷 几 乎 总 是 空 的 。 

性 能 ”Satyanarayanan 等 [1990] 用 仿真 AFS 用 户 (从 5 个 到 50 个 ) 的 基准 负载 ， 比 较 了 Coda 和 
AFS 的 性 能 ，。 

如 果 没 有 复制 ，AFS 和 Coda 的 性 能 没有 太 大 的 差别 。 若 采用 复制 三 次 的 策略 ，Coda 在 5 个 典型 
用 户 负 载 的 基准 下 ， 完 成 负载 的 时 间 只 超过 无 复制 的 AFS 5%， 但 是 ， 同 样 是 三 次 复制 ， 在 50 个 典 
型 用 户 的 负载 基准 下 ，Coda 完 成 负载 的 时 间 增 加 了 70%， 对 无 复制 的 AFS， 完 成 负载 的 时 间 只 增加 
了 16%。 这 个 差别 部 分 归 因 于 与 复制 相关 的 开销 ， 实 现 的 不 同 也 是 造成 性 能 差异 的 原因 。 

讨论 。 上面 我 们 指出 Coda 和 Bayou 相 似 之 处 在 于 Coda 也 使 用 了 乐观 方法 以 获得 高 可 用 性 (尽管 它们 
在 其 他 一 些 方面 不 同 ， 不 仅仅 是 因为 一 个 管理 文件 ， 另 一 个 管理 数据 库 ) 。 我 们 也 描述 了 Coda 如 何 使 用 
CVV 检 查 冲 突 ， 但 不 用 考虑 存储 在 文件 中 的 数据 的 语义 。 这 个 方法 可 以 检测 潜在 的 写 - 写 冲突 但 不 能 检 
查 读 -- 写 冲突 。 之 所 以 说 是 “潜在 ”的 写 - 写 冲 突 ， 是 因为 在 应 用 语义 的 层次 上 来 说 ， 并 不 存在 实际 的 
冲突 ， 客户 可 能 无 冲突 地 更 新 了 文件 中 的 不 同 的 对 象 ， 因 此 一 个 简单 的 自动 合并 将 是 可 能 的 。 

Coda 所 用 的 语义 无 关 的 冲突 检测 和 手工 解决 的 方法 在 许多 情况 下 是 可 行 的 ， 尤 其 在 需要 人 为 
判断 的 应 用 或 者 是 没有 数据 语义 知识 的 系统 中 。 

目录 是 Coda 的 一 个 特殊 情况 。 在 冲突 解决 中 自动 地 维持 这 些 关 键 对 象 的 完整 性 是 有 可 能 的 ， 
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因为 它们 的 语义 相对 简单 :目录 发 生 的 变化 只 有 目录 项 的 插入 和 删除 。Coda 用 它 自己 的 方法 解决 
目录 问题 ， 与 Bayou 的 操作 变换 方法 有 相同 的 效果 ， 但 是 Coda 直 接合 并 相互 冲突 的 目录 的 状态 ， 因 
为 它 没 有 记录 客户 完成 的 操作 。 


15.5 复制 数据 上 的 事务 


到 目前 为 止 ， 在 我 们 考虑 的 系统 中 ， 客 户 只 在 对 象 的 复制 集合 上 一 次 请 求 一 个 单独 的 操作 。 
第 13 章 和 第 14 章 解释 了 事务 是 一 个 或 多 个 操作 的 序列 ， 并 具有 ACID 性 质 。 对 15.4 节 中 的 系统 ， 事 
务 系统 中 的 对 象 可 以 通过 复制 来 提高 可 用 性 和 性 能 。 

对 客户 而 吉 ， 复 制 对 象 上 的 事务 看 上 去 应 该 和 没有 复制 的 对 象 的 事务 一 样 。 在 无 复制 的 系统 
中 ， 事 务 以 某 种 次 序 执行 一 次 。 这 是 通过 客户 事务 的 串 行 等 价 交错 执行 来 保证 的 。 作 用 于 复制 对 
象 的 事务 应 该 和 它们 在 某 一 对 象 集 上 执行 具有 一 样 的 效果 。 这 种 性 质 叫 做 单 材 贝 囊 行 化 。 访 性 质 
与 顺序 一 致 性 非常 相似 ， 但 不 能 混淆 。 顺 序 一 致 性 考虑 执行 的 有 效 性 ， 并 不 考虑 将 客户 的 操作 组 
合 后 放 入 到 一 个 事务 中 。 

每 一 个 副本 管理 器 为 它 自己 的 对 象 提 供 并 发 控制 和 恢复 。 本 节 假 定 为 并 发 控制 应 用 两 阶段 加 锁 。 

一 个 副本 管理 器 出 现 故 障 ， 不 能 再 提供 服务 ， 但 是 同一 个 副本 管理 器 集合 中 的 其 他 成 员 在 它 
不 可 用 的 时 候 ， 继 续 提供 服务 ， 这 使 恢复 问题 变 得 复杂 。 当 副本 管理 器 从 故障 中 恢复 后 ， 考 虑 到 
在 它 不 可 用 期 间 发 生 的 所 有 变化 ， 它 需要 从 别 的 副本 管理 器 获取 信息 以 恢复 对 象 的 当前 值 。 

本 布 首先 介绍 处 理 复制 数据 的 事务 的 系统 体系 结构 。 体 系 结构 上 的 问题 包括 :一 个 客户 请 求 
能 否 寻 址 到 某 个 副本 管理 器 ， 为 了 成 功 完成 一 个 操作 需要 多 少 副本 管理 器 ， 是 否 某 个 客户 相关 的 
副本 管理 器 能 够 推迟 转发 请 求 ， 直 到 事务 提交 ， 以 及 如 何 实现 两 阶段 提交 协议 。 

单 拷贝 串 行 化 的 实现 可 以 通过 读 一 个 / 写 所 有 来 说 明 。 这 是 一 个 简单 的 复制 方案 ， 其 中 读 操作 
由 一 个 副本 管理 器 完成 ， 写 操作 由 所 有 的 副本 管理 器 执行 。 

本 节 然 后 讨论 服务 器 崩溃 和 恢复 时 如 何 实现 复制 方案 ， 并 介绍 了 读 一 个 / 写 所 有 复制 方案 的 一 
个 变种 ， 即 可 用 找 贝 复制 方法 一 - 读 操作 由 任何 一 个 副本 管理 器 完成 ， 写 操作 由 所 有 当前 可 用 的 副 
本 管理 器 执行 。 

最 后 ， 本 节 提 出 了 三 种 复制 方案 。 在 出 现 网 络 分 区 ， 副 本 管理 器 集合 被 分 为 子 组 时 ， 这 三 种 
方案 均 可 正确 工作 。 

* 带 验证 的 可 用 拷贝 : 在 每 一 个 分 区 中 应 用 可 用 拷贝 复制 ， 当 修复 分 区 后 ， 通 过 一 个 验 认 过 程 

来 处 理 任何 不 一 致 情况 。 

“法 定数 共识 ; 每 个 子 组 必须 是 一 个 法 定 组 (意味 着 它 有 足够 的 成 员 )， 以 便 在 出 现 分 区 时 能 

够 继续 提供 服务 。 当 分 区 修复 后 (并 且 当 一 个 副本 管理 器 在 故障 后 重新 启动 时 )， 副 本 管理 

器 通过 恢复 过 程 获得 它们 的 最 新 对 象 。 

“虚拟 分 区 : 法 定数 共识 和 可 用 拷贝 的 结合 。 如 果 一 个 虚拟 分 区 有 一 个 法 定 组 ， 它 就 能 使 用 可 

用 的 拷贝 复制 。 


15.5.1 复制 事务 的 体系 结构 


在 前 面 儿 节 已 考虑 的 系统 范围 中 ， 一 个 前 端 可 以 将 客户 请 求 组 播 到 副本 管理 器 组 或 发 送 请 求 
到 某 个 副本 管理 器 ， 这 个 副本 管理 器 负责 处 理 请 求 并 响应 客户 。Wiesmann 等 [2000]、Schiper 和 
Raynai[1996] 考 虑 了 组 播 请 求 的 情况 ， 我 们 在 此 不 再 玖 述 。 从 现在 开始 ， 我 们 假定 前 端 发 送 客户 请 
求 到 逻辑 对 象 的 副本 管理 器 组 中 的 某 一 个 副本 管理 器 。 在 主 拷贝 方法 中 ， 所 有 的 前 端 和 一个“ 十， 
副本 管理 器 通信 来 执行 某 个 操作 ， 由 这 个 副本 管理 器 负责 更 新 备份 。 另 外 ， 前 端 可 以 和 任何 一 个 
副本 管理 器 通信 来 执行 某 个 操作 ， 但 是 这 种 情况 下 副本 管理 器 之 间 的 协调 问题 更 加 复杂 。 
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收 到 针对 特定 对 象 执行 操作 请 求 的 副本 管理 器 负责 协调 组 中 具有 那个 对 象 拷贝 的 其 他 副本 管 
理 器 。 为 了 成 功 地 完成 一 个 操作 ， 不 同 的 复制 方案 有 不 同 的 规则 ， 需 要 不 同 数 量 的 副本 管理 器 。 
例如 ， 在 读 一 个 / 写 所 有 方案 中 ，read 请 求 可 以 由 单一 的 副本 管理 器 来 执行 ， 而 write 请 求 必 须 由 组 
中 所 有 副本 管理 器 来 执行 ， 如 图 15-10 所 示 (不 同 对 象 可 以 有 不 同 数目 的 副本 ) 。 法 定数 共识 方案 
用 来 降低 执行 一 个 更 新 操作 所 必须 的 副本 管理 器 的 数目 ， 但 它 的 代价 是 增加 了 执行 read only 操 作 的 
副本 管理 器 的 数目 。 


客户 + 前 端 







客户 + 前端 
deposit(B, 3) 


getBalance(A) 


图 15-10 复制 数据 上 的 事务 


另 一 个 问题 是 和 前 端 联系 的 副本 管理 器 是 否 应 该 延迟 转发 更 新 请 求 到 别 的 管理 器 ， 直 到 一 个 
事务 提交 为 止 ， 即 所 谓 的 更 新 传播 的 情 性 方法 ;或 者 相反 ， 是 否 副本 管理 器 应 该 在 它 提交 事务 以 
前 将 每 一 个 更 新 请 求 转发 到 所 有 的 管理 器 一 -及 时 方法 。 情 性 方法 是 一 个 很 好 的 选择 : 它 降 低 了 响 
应 更 新 客户 之 前 发 生 的 副本 管理 器 之 间 的 通信 量 。 但 是 在 该 方法 中 ， 需 要 仔细 考虑 并 发 控制 。 情 
性 方法 有 时 用 在 主 拷贝 复制 中 ( 见 下 文 ) ， 主 副本 管理 器 可 将 事务 串 行 化。 但 如 果 几 个 不 同 的 事务 
试图 访问 某 对 象 在 一 个 组 中 不 同 管理 器 上 的 副本 时 ， 为 了 确保 事务 能 在 所 有 的 副本 管理 器 上 正确 
执行 ， 每 一 个 副本 管理 器 必须 知道 其 他 管理 器 的 执行 情况 。 此 时 ， 及 时 方法 是 唯一 可 用 的 方案 。 

两 阶段 提交 协议 ”在 有 复制 数据 的 情况 下 ， 两 阶段 提交 协议 变 为 两 层 航 套 的 两 阶段 提交 协议 。 
以 前 ， 一 个 事务 的 协调 者 和 其 他 参与 者 进行 通信 。 但 是 ， 如 果 协 调 者 或 参与 者 是 一 个 副本 管理 器 
时 ， 那 么 它 将 和 其 他 的 副本 管理 器 通信 ， 它 将 在 事务 期 间 发 送 请 求 给 这 些 副 本 管理 器 。 

简 而 言 之 ， 在 第 一 阶段 ， 协 调 者 发 送 “canCommit?” 给 参与 者 ， 参 与 者 再 将 这 个 消息 传递 给 
其 他 副本 管理 器 ， 并 在 回答 协调 者 之 前 收集 它们 的 应 答 。 在 第 二 阶段 ， 协 调 者 发 送 “doCommit” 
或 “doAbort” 请 求 ， 这 个 请 求 将 传递 给 副本 管理 器 组 成 员 。 

主 拷贝 复制 ” 主 拷贝 复制 可 用 在 事务 环境 。 在 这 个 方案 中 ， 所 有 的 客户 请 求 (不 管 是 否 只 读 ) 
直接 送 到 一 个 主 副 本 管理 器 ( 见 图 15-4)。 对 于 主 拷贝 复制 ， 并 发 控制 被 应 用 于 主 副 本 管理 器 上 。 
当 提 交 一 个 事务 时 ， 主 副本 管理 器 和 备份 副本 管理 器 通信 ， 然 后 用 及 时 方法 应 答 用 户 。 这 种 形式 
的 复制 可 以 在 主 副本 管理 器 出 故障 时 ， 由 一 个 备份 副本 管理 器 一 致 地 接管 它 。 在 惰性 方法 中 ， 主 
副本 管理 器 在 它 更 新 备份 前 就 响应 前 端 。 此 时 ， 一 个 替代 了 故障 前 端的 备份 不 一 定 有 数据 库 的 最 
新 状态 。 

读 一 个 / 写 所 有 ”我 们 使 用 这 个 简单 的 复制 方案 来 说 明 如 何 通过 每 个 副本 管理 器 上 的 两 阶段 锁 
来 获得 单 拷贝 串 行 化 ， 这 里 ， 前 端 可 以 和 任何 副本 管理 器 通信 。 每 一 个 write 操作 必须 在 任何 副本 
管理 器 上 执行 ， 它 在 操作 影响 到 的 每 个 对 象 上 加 一 个 写 锁 。 每 个 read 操 作 由 单个 副本 管理 器 执行 ， 
它 在 受 此 操作 影响 的 对 象 上 加 一 个 读 锁 。 

考虑 在 同一 对 象 上 的 不 同事 务 的 两 个 操作 : 任何 两 个 write 操作 需要 在 所 有 副本 管理 器 上 请 求 
冲突 锁 ， 在 单一 的 副本 管理 器 上 ， 一 个 read 操 作 和 一 个 write 操 作 将 请 求 冲突 锁 。 结 果 ， 获 得 了 单 
拷贝 串 行 化 。 
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15.5.2 可 用 拷贝 复制 

简单 的 读 一 个 / 写 所 有 复制 并 不 是 一 个 现实 的 方案 。 因 为 当 副本 管理 器 因为 月 溃 或 发 生 通 信 故 
障 而 变 得 不 可 用 时 ， 这 种 方案 就 不 可 能 实现 。 可 用 拷贝 复制 方案 允许 某 些 副本 管理 器 暂时 不 可 用 。 
这 个 方案 是 客户 对 一 个 逻辑 对 象 的 read 请 求 可 以 由 任何 可 用 的 副本 管理 器 执行 。 但 是 一 个 客户 的 更 
新 请 求 必须 由 具有 那个 对 象 拷贝 的 副本 管理 器 组 中 的 所 有 可 用 副本 管理 器 执行 。“ 副 本 管理 器 组 中 


可 用 成 员 ” 的 概念 和 15.4.3 节 描述 的 Coda 中 的 可 用 卷 存储 组 非常 相似 。 
客户 + 前 端 客户 + 前 端 


getBalance(B) 
deposit(A, 3) 














getBalance(A) 
deposit(B, 3) 


图 15-11 可 用 的 拷贝 


在 正常 情况 下 ， 一 个 正常 工作 的 副本 管理 器 接收 并 执行 客户 的 请 求 。read 请 求 可 由 收 到 请 求 的 
副本 管理 器 执行 。write 请 求 由 收 到 请 求 的 副本 管理 器 和 组 中 其 他 可 用 的 副本 管理 器 执行 。 例 如 ， 
在 图 15-11 中 ， 事 务 T 的 getBalance 操 作 由 X 执 行 ， 而 它 的 deposit 操 作 由 M、N 和 了 执行。 每 个 副本 管 
理 器 上 的 并 发 控制 影响 本 地 执行 的 操作 。 例 如 ， 在 X 上 ， 事 务 T 已 经 读 了 A， 因 此 事务 U 并 不 允许 用 
deposit 操 作 来 更 新 A， 直 到 事务 T 完 成 为 止 。 只 要 可 用 的 副本 管理 器 集 没有 变化 ， 本 地 的 并 发 控制 
将 和 读 一 个 / 写 所 有 复制 一 样 可 获得 单 拷贝 串 行 化 。 遗 憾 的 是 ， 如 果 相 冲突 的 事务 在 进行 过 程 中 ， 
副本 管理 器 出 了 故障 或 正在 恢复 ， 就 不 是 这 种 情况 了 。 

副本 管理 器 故障 我 们 假定 副本 管理 器 的 故障 是 良性 崩溃 。 崩 涡 的 副本 管理 器 被 一 个 新 的 进程 
取代 ， 它 用 一 个 恢复 文件 来 还 原 对 象 的 提交 状态 。 前 端 使 用 超时 检查 来 判断 某 个 副本 管理 器 当前 
是 否 可 用 。 当 客户 发 送 一 个 请 求 到 崩溃 的 副本 管理 器 后 ， 前 端 将 会 超时 ， 并 重新 尝试 将 请 求 发 送 
到 组 中 的 另 一 个 副本 管理 器 。 如 果 请 求 被 某 个 副本 管理 器 接收 ， 但 由 于 副本 管理 器 尚未 完全 从 故 
障 中 恢复 而 导致 对 象 数据 过 时 ， 副 本 管理 器 将 拒绝 请 求 ， 这 时 前 端 将 重新 发 送 请 求 到 组 中 的 另 一 
个 副本 管理 器 。 

就 事务 而 言 ， 单 拷贝 串 行 化 要 求 崩 溃 和 恢复 都 是 串 行 化 的 。 根 据 是 否 能 够 访问 某 个 对 象 ， 一 
个 事务 在 完成 之 后 或 在 启动 之 前 能 够 判断 是 否 存在 故障 。 当 不 同 的 事务 观察 到 相互 冲突 的 故障 情 
况 时 ， 将 无 法 获得 单 拷贝 串 行 化 。 

考虑 图 15-11 中 的 情况 ， 副 本 管理 器 X 在 T 已 经 执行 了 getBalance 之 后 出 故障 ， 副 本 管理 器 N 在 U 
完成 getBalance 后 出 现 故 障 。 假 定 在 T 和 U 执 行 deposit 操 作 以 前 副本 管理 器 X 和 NN 出 现 故障 。 这 上 暗示 
着 T 的 deposit 将 在 副本 管理 器 M 和 P 上 执行 ，U 的 deposit 将 在 副本 管理 器 Y 上 执行 。 但 是 ， 副 本 管理 
器 X 上 对 于 A 的 并 发 控制 并 不 会 阻止 事务 U 在 副本 管理 器 Y 上 更 新 A。 同 样 ， 副 本 管理 器 N 上 对 B 的 
并 发 控制 也 不 会 阻止 T 在 副本 管理 器 M 和 P 上 更 新 B。 

这 种 现象 与 单 拷贝 串 行 化 需求 是 相 违背 的 。 如 果 这 些 操 作 在 对 象 的 单一 拷贝 上 执行 ， 那 么 它们 
应 该 是 可 串 行 化 的 ， 即 要 么 事务 T 在 U 之 前 执行 ， 要 么 T 在 事务 U 之 后 执行 。 这 保证 一 个 事务 可 以 读 
取 另 一 个 事务 设置 的 值 。 对 象 拷贝 的 本 地 并 发 控制 不 足以 在 可 用 拷贝 复制 方案 中 保证 单 拷贝 串 行 化 。 

由 于 write 操作 直接 作用 于 所 有 可 用 的 拷贝 上 ， 因 此 本 地 并 发 控制 确实 能 保证 在 一 个 对 象 止 的 冲 
突 写 是 可 串 行 化 的 。 相 反 ， 一 个 事务 的 read 操 作 和 另 一 个 事务 的 write 操作 没 必 要 影响 对 象 的 同一 个 找 
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贝 。 因 此 ， 该 方案 需要 额外 的 并 发 控制 方法 以 防止 一 个 事务 的 read 操 作 和 另 一 个 的 write 操作 相互 依赖 
而 形成 一 个 环 。 如 果 对 事务 而 言 ， 故 障 和 对 象 副本 的 恢复 是 串 行 化 的 ， 那 么 不 会 产生 这 样 的 依赖 。 

本 地 验证 ”我们 把 额外 并 发 控制 过 程 称 为 本 地 验证 。 本 地 验证 用 来 确保 任何 故障 或 恢复 事件 不 
会 在 事务 的 执行 过 程 中 发 生 。 在 我 们 的 例子 中 ， 当 T 已 经 对 X 上 的 一 个 对 象 进行 了 read 操 作 ，X 的 故 
障 一 定 出 现在 T 完 成 以 后 。 同 样 的 ， 当 T 试 图 更 新 对 象 时 发 现 N 出 了 故障 ， 那 么 N 的 故障 一 定 在 T 之 
前 出 现 ， 即 ; 

NN 出 故障 一 T 在 X 上 读 对 象 A，T 在 M 和 P 上 写 对 象 B 一 T 提 交 一 X 出 故障 
同样 对 事务 U 而 言 ， 有 : 

X 出 故障 一 U 在 N 上 读 对 象 B，U 在 Y 上 写 对 象 A 一 U 提 交 一 N 出 故障 

本 地 验证 过 程 确保 两 个 不 相 容 的 序列 不 会 同时 发 生 。 在 一 个 事务 提交 以 前 ， 它 检查 事务 已 访 
问 的 副本 管理 器 的 任何 故障 (和 恢复 )。 在 上 面 的 例子 中 ，T 通 过 检查 发 现 N 仍 然 不 可 用 ,而 X、M 
和 P 仍 然 可 用 。 在 这 种 情况 下 ，T 能 够 提交 。 这 暗示 着 在 T 验 证 之 后 、U 验 证 之 前 X 出 现 故 障 。 换 言 
之 ，U 的 验证 是 在 T 的 验证 之 后 进行 的 。U 验 证 失败 是 因为 N 已 经 出 现 故 障 。 

每 当 某 个 事务 发 现 故 障 时 、 本 地 验证 过 程 将 试图 和 发 生 故 障 的 副本 管理 器 通信 来 确信 它们 仍 
然 没 有 恢复 。 本 地 验证 过 程 的 其 他 部 分 用 于 测试 访问 对 象 时 ， 副 本 管理 器 是 否 发 生 故障 ， 这 些 部 
分 操作 可 以 并 人 两 阶段 提交 协议 中 。 

当 正 常 工作 的 副本 管理 器 不 能 和 另外 的 副本 管理 器 通信 时 ， 可 用 拷贝 算法 不 能 使 用 。 


15.5.3 网 络 分 区 


复制 方案 需要 考虑 网 络 分 区 的 可 能 性 。 网 络 分 区 将 一 个 副本 管理 器 组 分 为 两 个 或 更 多 的 子 组 ， 
在 这 种 情况 下 ， 一 个 子 组 中 的 成 员 可 相互 通信 ， 但 不 同 子 组 中 的 成 员 不 能 通信 。 例 如 ， 在 图 15-12 
中 ， 收 到 deposit 的 副本 管理 器 不 能 将 其 发 送 给 收 到 withdraw 请 求 的 副本 管理 器 。 
客户 + 前端 客户 + 前 端 
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图 15-12 网 络 分 区 


复制 方案 的 设计 基于 这 样 的 假定 : 网 络 分 区 最 终 将 被 修复 。 因 此 ， 单 个 分 区 中 的 副本 管理 器 
必须 保证 在 分 区 期 间 它们 执行 的 任何 请 求 在 分 区 修复 后 不 会 造成 不 一 致 。 

Davidson 等 [1985] 讨 论 了 多 种 不 同 的 方法 。 按 照 是 否 容易 发 生 不 一 致 ， 这 些 方法 可 分 为 乐观 方 
法 和 悲观 方法 。 乐 观 方法 在 分 区 期 间 不 限制 可 用 性 ， 然 而 悲观 方法 却 对 此 有 所 限制 。 

乐观 方法 允许 在 所 有 的 分 区 中 进行 更 新 一 一 这 可 能 会 导致 分 区 的 不 一 致 ， 该 问题 必须 在 分 区 修 
复 后 解决 。 这 种 方法 的 一 个 例子 是 可 用 拷贝 算法 的 一 个 变种 ， 即 在 分 区 中 允许 进行 更 新 ， 并 且 当 
分 区 恢复 时 ， 对 更 新 加 以 验证 一 一 任何 违背 单 拷贝 串 行 化 准则 的 更 新 将 被 丢弃 。 

即使 没有 分 区 ， 悲 观 算法 也 对 可 用 性 有 所 限制 ， 但 它 阻 止 了 在 分 区 时 任何 不 一 致 的 产生 。 当 
一 个 分 区 恢复 时 ， 所 要 做 的 是 更 新 对 象 的 拷贝 。 法 定数 共识 方法 是 翡 观 方法 ， 它 允许 在 主 副本 服 
务 器 所 在 分 区 中 进行 更 新 并 当 分 区 修复 时 将 更 新 传 给 其 他 的 副本 管理 器 。 
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15.5.4 带 验 证 的 可 用 拷贝 


可 用 拷贝 算法 可 在 每 一 个 分 区 内 使 用 。 这 种 乐观 方法 即使 在 分 区 期 间 也 可 以 维持 read 操 作 的 正 
常 层次 的 可 用 性 。 当 一 个 分 区 恢复 后 ， 需 要 对 发 生 在 不 同 分 区 中 的 可 能 相互 冲突 的 事务 进行 验证 ，。 
如 果 验 证 失败 ， 必 须 采 取 某 些 步 又 来 克服 这 种 不 一 致 。 如 果 没 有 发 生 分 区 ， 相 互 冲 突 的 两 个 事务 之 
一 将 被 延迟 或 放弃 。 遗 憾 的 是 ， 当 分 区 存在 时 ， 冲 突 的 事务 可 以 在 不 同 的 分 区 中 提交 。 这 种 情况 发 
生 后 的 唯一 选择 就 是 放弃 其 中 的 一 个 事务 。 这 需要 在 对 象 中 进行 某 些 变化 ， 甚 至 在 某 些 情况 下 要 补 
偿 现 实 世界 中 的 影响 ， 例 如 银行 的 账户 透支 。 当 会 发 生 这 种 补偿 行为 时 ， 乐 观 方法 才 是 可 行 的 。 

可 利用 版 本 向 量 来 验证 相互 冲突 的 write 操作 。 这 些 方法 在 15.4.3 节 中 已 经 描述 过 ， 并 且 已 被 用 
于 Coda 文 件 系 统 中 。 这 种 方法 并 不 能 检测 到 读 -- 写 冲突 ， 但 在 事务 多 是 访问 单个 文件 并 且 读 -- 写 冲 
突 不 重要 的 系统 中 ， 这 种 方法 能 够 很 好 地 工作 。 它 并 不 适合 类 似 银 行 例 子 这 类 应 用 ， 因 为 对 这 种 
应 用 而 言 ， 读 -- 写 冲突 很 重要 。 

Davidson[19841 使 用 前 驱 图 来 检测 分 区 间 的 不 一 致 。 每 一 个 分 区 维持 着 一 个 被 事务 read 和 write 操 
作 影 响 的 对 象 的 日 志 。 这 个 日 志 用 来 构建 一 个 前 驱 图 ， 图 的 节点 是 事务 ， 它 的 边 代表 事务 read 和 write 
操作 之 间 的 冲突 。 这 样 一 个 图 应 该 不 包含 任何 环 ， 因 为 并 发 控制 已 经 应 用 于 分 区 中 。 验 证 过 程 取出 分 [GE 
区 的 前 驱 图 并 在 不 同 分 区 中 的 事务 之 间 加 上 代表 冲突 的 边 。 如 果 最 终 的 图 包含 了 环 ， 那 么 验证 失败 。 


15.5.5 法 定数 共识 方法 


一 种 阻止 分 区 中 的 事务 产生 不 一 致 的 方法 是 制定 一 个 规则 ， 使 操作 只 能 在 其 一 个 分 区 中 进行 。 
由 于 不 同 分 区 中 的 副本 管理 器 不 能 相互 通信 ， 因 此 每 一 个 分 区 中 的 子 组 中 的 副本 管理 器 必须 独立 
地 决定 它们 是 否 能 进行 操作 。 法 定数 是 若干 副本 管理 器 组 成 的 子 组 ， 它 的 大 小 使 它 能 够 执行 这 个 
操作 。 例 如 ， 如 果 拥 有 大 多 数 成 员 是 一 个 标准 的 话 ， 那 么 含 大 多 数 成 员 的 子 组 可 形成 一 个 法 定 组 ， 
因为 其 他 的 子 组 不 会 拥有 大 多 数 成 员 。 

在 一 个 法 定数 共识 的 复制 方案 中 ， 一 个 逻辑 对 象 上 的 更 新 操作 可 以 成 功 地 被 副本 管理 器 组 中 
的 一 个 子 组 完成 。 该 子 组 的 其 他 成 员 则 有 对 象 的 过 时 的 拷贝 。 版 本 号 或 时 间 惟 可 以 用 来 决定 拷贝 
是 否 已 经 更 新 。 如 果 可 以 使 用 版 本 ， 对 象 的 初始 状态 是 第 一 个 版 本 ， 并 且 经 过 每 一 次 变化 后 ,我 
们 有 一 个 新 的 版 本 。 每 个 对 象 的 每 个 拷贝 有 一 个 版 本 号 ， 只 有 最 新 的 版 本 有 当前 版 本 号 ， 而 过 时 
的 拷贝 有 一 个 较 早 的 版 本 号 ， 操 作 只 能 应 用 于 具有 当前 版 本 号 的 拷贝 。 

Gifford[1979a] 开 发 了 一 个 文件 复制 方案 ， 其 中 一 定数 量 的 “选票 ”被 分 配给 一 个 逻辑 文件 的 
副本 管理 器 上 的 每 个 物理 拷贝 。 选 票 可 以 看 成 是 一 个 对 使 用 特定 拷贝 的 需求 度 的 权重 。 每 个 read 操 
作 必须 在 它 对 任何 最 新 拷贝 进行 读 之 前 ， 先 获得 一 个 有 R 个 选票 的 读 法 定数 ， 每 个 write 操作 必须 在 
它 对 任何 最 新 拷贝 进行 更 新 之 前 ， 获 得 一 个 有 W 个 选票 的 写法 定数 。 其 中 ，R 和 W 是 副本 管理 器 组 ， 
它们 满足 下 面条 件 : 

W > 总 选票 的 一 半 

R+ W > 组 选票 的 总 数 

这 就 确保 了 任何 一 对 (由 一 个 读 法 定数 和 一 个 写法 定数 或 两 个 写法 定数 组 成 )， 必 须 包含 相同 
的 拷贝 。 因 此 ， 在 分 区 出 现时 ， 不 可 能 在 不 同 的 分 区 中 进行 同一 拷贝 上 的 冲突 操作 。 

为 了 进行 一 个 read 操 作 ， 首 先 必 须 通过 足够 多 的 版 本 号 查询 来 发 现 一 组 拷贝 ， 从 而 收集 一 个 读 
法 定数 ， 选 票 的 数量 不 得 少 于 R。 并 不 要 求 所 有 这 些 拷贝 都 是 最 新 的 。 由 于 每 个 读 法 定数 和 每 个 写 
法 定数 存在 重 登 ， 每 个 读 法 定数 必定 至 少 包 括 一 个 当前 拷贝 。read 操 作 可 在 任何 最 新 的 拷贝 上 执行 。 

为 了 进行 一 个 write 操作 ， 首 先 必须 通过 足够 多 的 版 本 号 查询 来 收集 一 个 写法 定数 ， 法 定数 中 
的 成 员 必须 具有 最 新 的 拷贝 ， 并 且 选 票 的 数量 不 得 少 于 W。 如 果 没 有 足够 的 最 新 拷贝 ， 那 么 一 个 
非 当前 的 文件 会 被 一 个 当前 文件 的 拷贝 所 替代 ， 以 使 法 定数 得 以 建立 。 由 写法 定数 中 的 每 个 副本 [648] 
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管理 器 进行 write 操作 中 指定 的 更 新 ， 增 加 所 有 对 象 副 本 的 版 本 号 ，write 操 作 的 完成 要 报告 给 客户 。 

然后 ， 在 剩 下 可 用 的 副本 管理 器 中 的 文件 由 写 操作 以 后 台 任 务 方式 进行 更 新 。 任 何 副本 管理 
器 ， 如 果 它 的 文件 拷贝 的 写 版 本 号 比 写法 定数 拥有 的 文件 拷贝 的 版 本 号 有 旧时， 整个 文件 由 来 自 最 
新 更 新 过 的 副本 管理 器 的 一 个 副本 来 替换 。 

在 Giftford 的 复制 方案 中 ， 两 阶段 读 - 写 加 锁 可 以 用 来 进行 并 发 控制 。 开 始 ， 用 版 本 号 查询 来 构 
造 读 法 定数 R 时 ， 每 个 副本 管理 器 都 被 设置 了 一 个 读 锁 。 当 在 写法 定数 WwW 中 执行 write 操作 时 ， 每 个 
被 涉及 的 副本 管理 器 上 设置 了 一 个 写 锁 (这 里 ， 锁 的 粒度 与 版 本 号 有 相同 的 粒度 )。 由 于 一 个 读 法 
定数 和 一 个 写法 定数 重 番 ， 并 且 两 个 写法 定数 也 重 登 ， 因 此 这 些 锁 保证 了 单 拷贝 串 行 化 。 

副本 管理 器 组 的 配置 能 力 ”加 权 投 票 算法 的 一 个 重要 性 质 是 副本 管理 器 组 能 够 通过 配置 来 提供 不 
同 的 性 能 或 可 靠 性 。 一 旦 通过 它 的 选票 配置 得 到 一 个 副本 管理 器 组 的 可 靠 性 和 性 能 ，write 操 作 的 可 
人 靠 性 和 性 能 的 提高 可 以 通过 减少 W 而 得 以 增加 ， 同 样 可 以 通过 减少 R 来 提高 读 操作 的 可 靠 性 和 性 能 。 

该 算法 既 双 许 使 用 客户 机 本 地 磁盘 的 文件 拷贝 ， 也 允许 使 用 文件 服务 器 上 的 文件 。 客 户 机 上 
的 文件 拷贝 被 认为 是 弱 代 表 ， 并 且 经 常 给 它们 分 配 0 个 选票 。 这 就 确保 它们 不 会 包含 在 任何 法 定数 
中 。 一 旦 某 个 读 法 定数 构造 成 功 ， 一 个 read 操 作 就 可 以 在 任何 最 新 的 指 贝 上 执行 。 因 此 ， 如 果 一 个 
文件 的 本 地 拷贝 是 最 新 的 ， 则 读 操 作 可 以 在 该 拷贝 上 执行 。 弱 代表 可 用 来 加 快 read 操 作 速度 。 

Gifford 的 例子 ”Gifford 给 出 了 三 个 例子 ， 这 三 个 例子 通过 给 一 个 组 上 的 不 同 副本 管理 器 分 配 
权重 和 分 配 适当 的 R 和 W ， 从 而 显示 出 不 同 的 特性 。 现 在 基于 下 面 的 表 再 现 Gifford 的 例子 。 阻 塞 概 
率 表 示 在 进行 一 个 读 或 写 操作 时 ， 不 能 获得 法 定 组 的 概率 。 假 设 在 发 请 求 时 ， 任 何 副本 管理 器 不 
可 用 的 概率 均 为 0.01。 

例 1 用 来 在 一 个 有 弱 代 表 和 单个 副本 管理 器 的 应 用 中 配置 一 个 具有 高 读 写 率 的 文件 。 复 制 用 来 提 
高 系统 的 性 能 ， 而 不 是 可 靠 性 。 局 域 网 上 的 一 个 副本 管理 器 可 以 在 75ms 内 被 访问 。 两 个 客户 已 经 选 
择 在 它们 的 本 地 磁盘 上 做 弱 代 表 ， 它 们 能 在 65ms 内 访问 ， 结 果 导 致 了 低 延 时 和 更 少 的 网 络 流量 。 

例 2 用 来 配置 一 个 有 中 读 写 率 的 文件 ， 该 文件 主要 通过 局 域 网 被 访问 。 局 域 网 上 的 副本 管理 器 
被 分 配 两 个 选票 ， 远 程 网 络 上 的 每 个 副本 管理 器 被 分 配 一 个 选票 。 读 可 以 在 本 地 副本 管理 器 上 执 
行 ， 但 写 操作 必须 访问 本 地 副本 管理 器 和 一 个 远程 副本 管理 器 。 如 果 本 地 副本 管理 器 出 现 故障 ， 
文件 在 只 读 模式 下 仍然 是 可 用 的 。 客 户 为 了 获得 更 低 的 读 延 时 ， 可 以 创建 本 地 的 弱 代表 。 

例 3 用 来 配置 一 个 具有 非常 高 读 写 率 的 文件 , 比如 在 一 个 具有 三 副本 管理 器 环境 下 的 系统 目录 。 
客户 能 从 任何 副本 管理 器 上 读 ， 文 件 不 可 用 的 概率 很 低 。 更 新 必须 作用 于 所 有 的 拷贝 。 同 样 ， 为 
了 降低 读 操 作 延 时 ， 可 以 在 本 地 机 上 创建 它们 的 弱 代 表 。 











例 1 例 2 例 3 
延迟 副本 1 75 75 75 
(ms) 副本 2 65 100 750 
副本 3 65 750 750 
选票 配置 副本 1 1 2 
副本 2 0 I 1 
副本 3 0 1 1 
法 定数 大 小 R 1 2 1 
Ww 1 3 3 
| 文件 包 得 到 的 性 能 
二 ”一 -一 -一 一 一 
读 延迟 65 75 75 
阻塞 概率 0.01 0.0002 0.000001 
写 延迟 75 100 750 


阻塞 概率 0.01 0.0101 0.03 
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法 定数 共识 方法 的 主要 缺点 是 ， 由 于 需要 从 R 个 副本 管理 器 中 收集 一 个 读 法 定数 ， 因 此 read 操 
作 的 性 能 被 降低 了 。 

Herlihy[1986] 引 入 抽象 数据 类 型 扩展 了 法 定数 共识 方法 。 这 种 方法 允许 考虑 操作 的 语义 ， 因 
此 提高 了 对 象 的 可 用 性 。Herlihy 的 方法 使 用 时 间 戳 而 不 是 版 本 号 ， 这 样 做 的 好 处 是 不 需要 为 了 在 
执行 一 个 写 操作 前 得 到 一 个 新 版 本 号 而 进行 查询 。Herlihy 声 称 的 主要 好 处 是 使 用 语义 知识 可 以 提 
高 法 定 组 选择 的 数量 。 


15.5.6 虚拟 分 区 算法 


该 算法 由 El Abbadi 等 [1985] 提 出 ， 结 合 了 法 定数 共识 和 可 用 拷贝 两 种 算法 。 当 出 现 分 区 时 ， 
法 定数 共识 能 够 正确 地 工作 ， 而 可 用 拷贝 对 于 read 操 作 的 代价 更 低 。 虚 拟 分 区 是 真实 分 区 的 一 个 抽 
象 ， 包 含 了 一 个 副本 管理 器 的 集合 。 注 意 ， 术 语 “ 网 络 分 区 ”是 指 将 副本 管理 器 分 成 许多 部 分 的 
屏障 ， 而 术语 “虚拟 分 区 ”是 指 这 些 部 分 本 身 。 尽 管 它们 并 不 通过 组 播 通信 相连 接 ， 但 虚拟 分 区 
还 是 很 像 15.2.2 节 介绍 的 组 视图 。 如 果 虚 拟 分 区 包含 充足 的 副本 管理 器 而 具有 访问 对 象 的 读 法 定 组 
和 号 法定 组 ， 那 么 一 个 事务 能 在 该 虚拟 分 区 中 操作 。 在 这 种 情况 下 ， 这 个 事务 使 用 可 用 拷贝 算法 ， 
这 样 做 的 好 处 是 read 操 作 只 要 访问 某 个 对 象 的 单一 拷贝 ， 因 此 可 以 通过 选择 “最 近 ” 的 拷贝 来 提高 
性 能 。 如 果 一 个 副本 管理 器 发 生 故 障 ， 并 且 在 事务 执行 期 间 内 虚拟 分 区 发 生变 化 ， 那 么 这 个 事务 
将 被 放弃 。 由 于 所 有 存活 的 事务 以 同样 的 次 序 发 现 副本 管理 器 的 故障 和 恢复 ， 从 而 确保 了 事务 的 
单 拷贝 可 串 行 化 。 


事务 T 网 络 分 区 





”a 
图 15-13 两 个 网 络 分 区 


每 当 虚 拟 分 区 的 一 个 成 员 检测 到 它 不 能 访问 其 他 成 员 时 (例如 ， 当 一 个 write 操 作 没 被 确认 时 )， 
它 试 图 创建 一 个 具有 读 、 写 法 定数 的 新 虚拟 分 区 。 

例如 ， 设 想 有 4 个 副本 管理 器 Y、X、Y 和 Z， 每 一 个 副本 管理 器 都 有 一 个 选票 ， 并 且 写 和 读 法 
定数 是 R=2 和 W =3。 开 始 ， 所 有 的 副本 管理 器 可 相互 连接 。 只 要 它们 相连 ， 它 们 就 能 使 用 可 用 找 
贝 算法 。 例 如 ， 一 个 事务 T 由 读 操作 后 紧 跟 着 写 的 操作 组 成 ， 它 将 在 一 个 副本 管理 器 (比如 ，V) 
上 执行 read 操 作 ， 并 且 所 有 的 4 个 副本 管理 器 上 进行 write 操作 。 

假设 事务 T 开 始 在 V 上 执行 read 操 作 时 ，V 仍 和 X、Y、Z 相 连 。 发 生 网 络 分 区 后 (如 图 15-13 所 
示 ) 后 ，Y、X 在 一 部 分 ，Y、Z 各 在 不 同 的 分 区 。 那 么 ， 当 事务 T 试 图 执行 write 操作 时 ，V 将 注意 
到 它 已 不 能 连接 到 Y 和 Z 了 。 

当 一 个 副本 管理 器 不 能 和 它 先 前 连接 的 副本 管理 器 相连 时 ， 它 不 断 地 尝试 ， 直 到 它 可 以 创建 
一 个 新 的 虚拟 分 区 为 止 。 例 如 ，V 将 不 断 试图 连接 Y 和 Z， 直 到 它们 中 的 一 个 或 两 个 回应 它 为 止 ， 
像 图 15-14 所 示 Y 被 访问 那样 。 副 本 管理 器 Y、X 和 Y 组 成 了 一 个 虚拟 分 区 ， 因 为 它们 足以 形成 读 法 
定数 和 写法 定数 。 

在 一 个 事务 执行 期 间 (比如 事务 T 已 经 在 一 个 副本 管理 器 上 执行 一 个 操作 ) ， 这 时 创建 了 一 个 
新 的 虚拟 分 区 ， 那 么 这 个 事务 必须 放弃 。 此 外 ， 一 个 新 的 虚拟 分 区 内 的 副本 必须 通过 拷贝 其 他 副 
本 来 进行 更 新 。 在 Gifford 的 算法 中 可 以 使 用 版 本 号 来 决定 哪个 拷贝 是 最 新 的 。 所 有 的 副本 必须 是 
最 新 的 ， 因 为 read 操 作 可 在 任何 副本 上 执行 。 
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图 15-14 虚拟 分 区 

虚拟 分 区 的 实现 每 个 虚拟 分 区 都 有 一 个 创建 时 间 、 一 个 潜在 成 员 的 集合 和 一 个 实际 成 员 的 集 
合 。 创 建 时 间 是 逻辑 时 间 戳 。 虚 拟 分 区 的 实际 成 员 具 有 相同 的 创建 时 间 和 成 员 关 系 (一 个 它们 可 
以 与 之 通信 的 副本 管理 器 的 共享 视图 )。 例 如 ， 在 图 15-14 中 ， 潜 在 的 成 员 是 V、X、Y、Z, 而 实际 
的 成 员 是 V、X 和 Y。 

一 个 新 虚拟 分 区 的 创建 可 以 由 一 个 合作 协议 来 实现 。 这 个 协议 由 那些 副本 管理 器 可 访问 的 潜 
在 成 员 来 实现 。 几 个 副本 管理 器 可 能 同时 试图 创建 一 个 新 的 虚拟 分 区 。 例 如 ， 设 想 在 图 15-13 中 
的 副本 管理 器 Y、Z 不 断 地 试图 连接 其 他 的 副本 管理 器 ， 一 段 时 间 以 后 ， 网 络 分 区 部 分 获得 恢复 ， 
虽然 Y 不 能 和 Z 通 信 ， 但 是 两 个 组 V、X、Y 和 V、X、Z 却 能 相互 通信 。 此 时 存在 的 一 个 危险 是 创 
建 两 个 相互 重 又 的 虚拟 分 区 ， 如 图 15-15 中 的 Vi 和 V2。 虚拟 分 区 虚拟 分 区 几 

考虑 在 两 个 虚拟 分 区 中 执行 不 同事 务 的 影响 。 在 V、 二 。 
X、Y 中 的 事务 的 读 操作 可 能 被 应 用 于 副本 管理 器 Y 上 ， 
在 这 种 情况 下 ， 它 的 读 锁 将 不 会 和 另 一 个 虚拟 分 区 中 事务 
的 写 操作 设置 的 写 锁 相 冲 突 。 重 又 虚 拟 分 区 和 单 拷贝 串 行 
化 相 违 背 。 

协议 的 目标 是 创建 一 个 一 致 的 新 虚拟 分 区 ， 即 使 在 协 图 15-15 两 个 重合 的 虚拟 分 区 
议 期 间 发 生 了 真正 的 分 区 。 创 建 一 个 新 虚拟 分 区 的 协议 有 两 个 阶段 ， 参 见 图 15-16。 


一 个 在 阶段 1 回复 Yes 的 副本 管理 器 并 不 属于 一 个 虚拟 分 区 ， 直 到 它 在 阶段 2 中 收 到 相应 的 
Confirmation 消 息 为 止 。 









阶段 1: 

“发 起 者 发 送 一 个 Join 请 求 给 每 个 潜在 的 成 员 。Join 的 参数 是 一 个 用 于 新 虚拟 分 区 的 逻辑 时 间 戳 。 

* 当 某 个 副本 管理 器 收 到 Join 请 求 后 ， 它 比较 请 求 的 逻辑 时 间 惟 和 自己 当前 虚拟 分 区 的 时 间 惟 ; 

一 如 果 请 求 中 的 逻辑 时 间 惟 大， 那么 它 同意 加 入 并 回复 Yes。 
一 如 果 请 求 中 的 逻辑 时 间 惟 小， 那么 它 拒 绝 加 入 并 回复 No。 

阶段 2: 

“如 果 发 起 者 收 到 了 足够 的 Yes 应 答 ， 从 而 获得 读 和 写法 定数 ， 那 么 它 通过 发 送 一 个 Confirniation 消 息 
给 同意 加 入 的 站 点 来 创建 一 个 新 的 虚拟 分 区 。 该 虚拟 分 区 的 创建 时 间 惟 和 实际 成 员 列 表 以 参数 形式 
发 送 。 

“ 收 到 Confirmation 消 息 的 副本 管理 器 加 入 新 虚拟 分 区 ， 并 记录 它 的 创建 时 间 改 和 实际 成 员 列 表 。 

图 15-16 创建 一 个 虚拟 分 区 


在 上 面 的 例子 中 ， 图 15-13 中 显示 的 副本 管理 器 Y、Z 都 试图 创建 一 个 虚拟 分 区 , :具有 较 高 逻辑 
时 间 戳 的 副本 管理 器 ， 最 终 创 建 一 个 虚拟 分 区 。 
当 分 区 并 不 经 常 发 生 时 ， 这 是 一 个 有 效 的 方法 。 在 一 个 虚拟 分 区 内 ， 事 务 使 用 可 用 拷贝 算法 。 
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15.6 小 结 


复制 对 象 是 在 分 布 式 系统 中 获得 具有 高 性 能 、 高 可 用 性 和 容错 性 质 的 服务 的 重要 和 手段。 我 们 
描述 了 复制 服务 的 体系 结构 ， 其 中 副本 管理 器 掌管 着 对 象 的 副本 ， 前 端 使 得 复制 对 客户 透明 。 客 
户 、 前 端 和 副本 管理 器 既 可 以 是 分 开 的 进程 ， 也 可 以 在 同一 个 地 址 空间 中 。 

本 章 首 先 曾 述 了 系统 模型 ， 其 中 每 个 逻辑 对 象 都 由 一 组 物理 副本 来 实现 。 可 以 通过 组 通信 来 
非常 方便 地 更 新 这 些 副 本 。 我 们 扩展 了 组 通信 和 内容， 以 包括 组 成 员 关 系 服务 和 视图 同步 通信 。 

我 们 定义 了 线性 化 能 力 和 顺序 一 致 性 作为 容错 服务 的 正确 性 准则 。 这 些 准 则 表达 了 即使 这 些 
对 象 是 复制 的 ， 服 务必 须 如 何 保证 它们 与 逻辑 对 象 集合 的 单个 映像 等 价 。 最 有 实际 意义 的 准则 是 
顺序 一 致 性 。 

在 被 动 ( 主 -~ 备份 ) 复制 中 ， 通 过 直接 将 所 有 请 求 发 送 到 一 个 选 出 的 副本 管理 器 ， 并 在 其 出 故 
障 时 选 出 一 个 备份 副本 管理 器 代替 它 ， 便 可 以 获得 容错 。 在 主动 复制 中 ， 所 有 的 副本 管理 器 独立 
地 处 理 所 有 的 请 求 。 通 过 组 通信 ， 可 以 方便 地 实现 这 两 种 复制 形式 。 

我 们 接 下 来 考虑 了 高 可 用 性 服务 。Gossip 和 Bayou 都 允许 客户 在 发 生 网 络 分 区 时 在 本 地 副本 
上 进行 更 新 。 在 任 一 系统 中 ， 副 本 管理 器 在 恢复 连接 时 相互 交换 更 新 。Gossip 以 松弛 因果 一 致 性 
的 代价 来 获得 它 所 具有 的 最 高 的 可 用 性 。Bayou 提 供 了 更 强 的 最 终 一 致 性 保证 ， 采 用 了 自动 冲突 
检测 以 及 操作 变换 技术 来 解决 冲突 。Coda 是 一 个 高 可 用 文件 系统 ， 它 使 用 版 本 向 量 检 测 潜在 的 更 
新 冲突 。 

最 后 ， 我 们 考虑 了 复制 数据 上 的 事务 的 性 能 。 主 -备份 体系 结构 存在 这 种 情况 ， 在 前 端 可 以 与 
任何 副本 管理 器 通信 的 体系 结构 中 也 存在 这 种 情况 。 我 们 讨论 了 事务 系统 如 何 允许 副本 管理 器 出 
现 故 障 和 网 络 分 区 。 即 使 在 某 些 并 不 是 所 有 的 副本 管理 器 都 可 达 的 环境 下 ， 可 用 拷贝 、 法 定数 共 
识 和 虚拟 分 区 的 技术 仍 能 使 事务 中 的 操作 继续 进行 。 


练习 

15.1 三 台 计算 机 一 起 提供 一 个 复制 服务 。 制 造 商 声 称 每 一 台 计算 机 平均 5 天 出 一 次 故障 ， 一 次 故 
障 一 般 需 要 4 小 时 才能 修复 。 那 么 这 项 复制 服务 的 可 用 性 如 何 ? (第 604 页 ) 

15.2 试 解释 为 什么 一 个 多 线程 的 服务 器 不 能 看 成 是 一 个 状态 机 。 (第 607 页 ) 


15.3 在 一 个 多 用 户 的 游戏 中 ， 多 个 玩家 在 一 个 公用 屏幕 上 进行 游戏 。 游 戏 的 状态 被 复制 到 玩家 各 
自 的 工作 站 和 一 台 服 务 器 上 ， 这 个 服务 器 包含 控制 游戏 的 所 有 服务 ， 例 如 碰撞 检测 等 。 更 新 
被 组 播 给 所 有 的 副本 。 
(1) 这 些 游戏 人 物 之 间 可 能 相互 射 弹 ， 并 且 一 段 时 间 后 可 能 被 击 中 。 那 么 这 里 需要 什么 样 的 
更 新 次 序 ? 提示 : 请 考虑 “投掷 "、“ 磁 撞 ” 和 “复活 ”等 事件 。 
(2) 玩家 可 能 使 用 一 个 外 接 的 操作 设备 来 玩 这 个 游戏 ， 那 么 对 这 个 设备 的 操作 需要 什么 样 的 
次 序 ? (第 608 页 ) 
15.4 一 个 路 由 器 将 进程 p 与 男 外 两 个 进程 q 和 r 分 开 。p 组 播 消息 m 后 路 由 器 就 出 现 故 障 。 如 果 组 通 
信 系 统 是 视图 同步 的 ， 接 下 来 进程 p 将 会 怎样 ? (第 612 页 ) 
15.5 给 你 一 个 具有 全 序 组 播 操作 的 组 通信 系统 和 一 个 故障 检测 器 。 是 否 能 够 只 利用 这 些 组 件 ， 来 
构造 一 个 视图 同步 组 通信 系统 ? (第 612 页 ) 
15.6 同步 有 序 的 组 播 操 作 的 传递 排序 语义 和 视图 同步 组 通信 系统 中 的 传递 视图 的 语义 相同 。 在 某 
个 服务 中 ， 操 作 之 间 是 因果 排序 的 。 读 服务 支持 一 个 列表 中 的 多 个 用 户 在 这 个 服务 上 执行 操 
作 。 试 解释 为 什么 从 列表 中 删除 用 户 应 该 是 同步 有 序 操作 ? (第 612 页 ) 
15.7 由 状态 迁移 引起 的 一 致 性 问题 是 什么 ? (第 613 页 ) 
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素 15 芋 





对 象 o 上 的 一 个 操作 X 引 起 o 调 用 另 一 个 对 象 0" 上 的 操作 。 现 在 打算 复制 o 但 是 不 复制 0’。 


试 解 释 在 调用 o 上 操作 时 可 能 出 现 的 问题 并 给 出 一 个 解决 方案 。 (第 614 页 ) 
试 解 释 线性 化 和 顺序 一 致 性 之 间 的 不 同 。 一 般 情 况 下 ， 为 什么 在 实现 中 后 者 更 实际 些 ? 
(第 616 页 ) 
在 被 动 复制 系统 中 ， 试 解释 为 什么 允许 备份 继续 处 理 读 操作 会 导致 顺序 一 致 性 ， 而 不 是 线 
性 化 执行 ? (第 619 页 ) 
8gossip 体 系 结构 能 够 应 用 于 练习 15.3 描 述 的 分 布 式 游戏 吗 ? (第 622 页 ) 
在 gossip 体 系 结构 中 ， 为 什么 一 个 副本 管理 器 需要 保持 一 个 “复制 ”时 间 惟 和 一 个 “ 值 ” 时 
间 戳 ? (第 626 页 ) 


在 gossip 系 统 中 ， 前 端 有 一 个 向 量 时间 惟 (3，5，7) ， 代 表 着 它 从 一 个 有 三 个 副本 管理 器 的 
组 中 的 成 员 接收 到 的 数据 。 相 应 的 ， 这 三 个 副本 管理 器 有 向 量 时 间 玲 (5，2，8)、(4，5， 
6) 和 (4，5，8)。 哪 一 个 或 哪 一 些 副本 管理 器 能 立刻 满足 前 端的 一 个 查询 ? 前端 最 后 的 时 


间 惟 是 什么 ? 哪 一 个 副本 管理 器 能 立刻 从 前 端 合成 一 个 更 新 ? (第 627 页 ) 
试 解释 为 什么 让 某 些 副 本 管理 器 只 读 就 可 以 提高 gossip 系 统 的 性 能 ? (第 631 页 ) 
对 于 一 个 简单 的 房间 预定 应 用 ， 写 出 (如 Bayou 中 使 用 的 ) 依赖 性 检查 和 合并 过 程 的 伪 
代码 。 (第 633 页 ) 
在 Coda 文 件 系统 中 ， 为 什么 在 更 新 多 个 服务 器 上 一 个 文件 拷贝 时 ， 经 常 需要 用 户 手工 干预 ? 

(第 640 页 ) 
请 设计 一 种 方案 来 集成 文件 系统 目录 的 两 个 副本 ， 它 们 能 够 在 断 链 操作 下 执行 分 离 的 更 新 。 
试 使 用 Bayou 的 操作 变换 方法 或 者 Coda 方 法 。 (第 641 页 ) 


在 数据 项 A 和 B 上 应 用 可 用 拷贝 复制 ， 因 此 具有 副本 A、、A, 和 B,,、B,。 事 务 T 和 U 定 义 如 下 ， 
T: Read(A); Write(B,44), U; Read(B); Write(A, 55) 

假定 在 副本 上 应 用 两 阶段 加 锁 ， 设 计 一 个 T 和 U 的 交错 序列 。 解 释 为 什么 在 T 和 U 的 执行 中 出 

现 副 本 故障 时 ， 只 用 锁 不 能 确保 单 拷贝 串 行 化 。 利 用 这 个 例子 来 解释 本 地 验证 是 如 何 确保 

单 拷贝 串 行 化 的 。 (第 644 页 ) 

Gifford 的 法 定数 共识 复制 在 服务 器 X、Y 和 Z 上 使 用 ， 这 些 服务 器 都 有 数据 项 A 和 B 的 副本 。 

A 和 B 副 本 的 初始 值 是 100， 并 且 在 X、Y 和 Z 上 A 和 B 的 选票 是 1。 同 样 对 于 A 和 B,，R=W=2。 

一 个 客户 读 A 的 值 然后 将 它 写 到 B 上 。 

(1) 当 客 户 执行 这 些 操作 时 ， 出 现 了 一 个 分 区 ， 将 服务 器 X 和 Y 与 服务 器 Z 分 离 了 。 描 述 当 

客户 能 访问 服务 器 X 和 Y 时 ， 获 得 的 法 定数 和 发 生 的 操作 。 

(2) 描述 当 客户 仅 能 访问 服务 器 Z 时 ， 获 得 的 法 定数 和 发 生 的 操作 。 

(3) 分 区 修复 了 ， 然 后 另 一 个 分 区 发 生 了 ， 结 果 X 和 2Z 与 Y 分 离 了 。 描 述 当 客户 能 访问 服务 

器 X 和 Z 时 ,获得 的 法 定数 和 发 生 的 操作 。 (第 649 页 ) 





第 16 章 移动 计算 和 无 处 不 在 计算 


本 章 将 探讨 移动 计算 和 无 处 不 在 计算 领域 中 的 问题 ， 这 些 问 题 是 由 于 设备 小 型 化 和 无 线 连接 
的 出 现 而 产生 的 。 从 广义 上 说 ， 移 动 计算 主要 研究 关于 便携 设备 之 间 的 连通 问题 ， 无 处 不 在 计算 
则 研究 日 常 物 理 世 界 中 计算 设备 的 增 量 集成 问题 。 

本 章 将 介绍 一 种 常用 的 系统 模型 ， 它 强调 移动 系统 和 无 处 不 在 系统 的 易 变 性 : 在 任何 给 定 环 
境 中 的 用 户 、 设 备 和 软件 组 件 都 在 频繁 地 改变 。 之 后 ， 本 章 还 将 研究 涉及 易 变 性 和 易 变 性 物理 基 
础 的 几 个 研究 领域 ， 包 括 当 实体 移动 、 失 效 或 自发 出 现时 ， 软 件 组 件 之 间 如 何 实现 互 连 和 互 操 
作 ， 系 统 如 何 通 过 感知 和 上 下 文敏 感 信息 与 物理 世界 集成 ， 集 成 系统 中 的 安全 和 私密 问题 以 及 适 
合计 算 能 力 和 LO 资源 相对 缺乏 的 小 型 设备 的 技术 。 本 章 的 最 后 会 以 Cooltown 项 目 进行 实例 研究 ， 
Cooltown 为 移动 计算 和 无 处 不 在 计算 设计 了 一 种 面向 人 的 、 基 于 Web 的 体系 结构 。 


16.1 简介 


设备 的 小 型 化 和 无 线 连 接 的 出 现 导致 了 移动 计算 和 无 处 不 在 计算 的 产生 。 从 广义 上 说 ， 移 动 
计算 研究 的 是 日 常 物理 世界 中 移动 设备 的 连通 问题 ， 无 处 不 在 计算 研究 的 是 物理 世界 中 设备 的 增 
量 集 成 问题 。 随 着 设备 越 来 越 小 ， 我 们 能 将 它们 带 在 身边 或 穿戴 它们 ， 而 且 我 们 能 将 它们 人 嵌入 到 
物理 世界 的 许多 物体 中 一 一 不 只 是 安装 在 我 们 熟悉 的 桌面 设备 中 或 服务 器 架 上 。 而 且 ， 随 着 无 线 连 
接 越 来 越 普遍 ， 我 们 可 以 将 这 些 新 型 便携 设备 互 连 ， 或 者 连接 到 传统 的 个 人 计算 机 或 服务 器 上 。 

本 章 将 概述 移动 计算 〈 第 15 章 的 断 链 操作 处 理 已 经 涉及 这 个 主题 ) 和 无 处 不 在 计算 的 各 个 方 
面 。 本 章 侧重 它们 的 共有 特性 和 它们 同 传统 分 布 式 系统 的 不 同 。 虽然 本 章 将 给 出 该 领域 最 新 的 进 
展 ， 但 本 章 将 更 关注 开放 性 问题 ， 而 不 是 解决 方案 。 

本 章 将 首先 介绍 移动 计算 和 无 处 不 在 计算 的 起 源 ， 并 介绍 若干 子 领域 ， 包 括 可 穿戴 计算 、 手 
持 计算 和 上 下 文敏 感 计 算 。 之 后 ， 本 章 还 将 围绕 这 些 领域 的 特性 一 一 易 变性 ， 即 在 任 一 给 定 环 境 下 

户 、 设 备 和 软件 组 件 都 在 频繁 地 改变 一 一 给 出 一 个 系统 模型 。 本 章 随 后 将 讨论 涉及 易 变 性 和 易 变 
性 物理 基础 的 几 个 主要 研究 领域 ， 包 括 当 实体 移动 、 失 效 或 自发 出 现时 ， 软 件 组 件 之 间 如 何 实现 
互 连 和 互 操 作 ， 系 统 如 何 通过 感知 和 上 下 文敏 感 信 息 与 物理 世界 集成 ， 易 变 的 、 物 理 上 集成 的 系 
统 所 引发 的 安全 和 私密 性 问题 以 及 适合 计算 能 力 和 LO 资源 相对 缺乏 的 小 型 设备 的 技术 。 本 章 最 后 
以 Cooltown 项 目 作 为 实例 研究 对 象 ，Cooltown 为 移动 计算 和 无 处 不 在 计算 设计 了 一 种 面向 人 的 、 
基于 Web 的 体系 结构 。 

移动 计算 移动 计算 最 初 作为 一 种 能 够 保持 用 户 所 携带 的 个 人 电脑 与 其 他 机 器 的 连接 的 计算 范 
型 出 现 。 大 约 到 1980 年 才 出 现 适合 携带 的 个 人 电脑 ， 并 且 它 们 可 以 使 用 调制 解 调 器 通过 电话 线 与 
其 他 电脑 连接 。 技 术 进 化 大 致 沿 着 这 个 理念 ， 并 获得 了 更 好 的 功能 和 性 能 : 今天 的 便携 产品 有 笔 
记 本 电脑 或 小 型 的 笔记 本 电脑 ， 它 们 均 与 无 线 连 接 (包括 红外 线 、WiFi、 蓝 牙 、GPRS 或 3G 通 信 技 
术 ) 相 结 合 

技术 进化 的 另 一 条 路 径 产生 了 手持 计算 。 利 用 手持 设备 ， 包 括 个 人 数字 助理 (PDA) 、 手 机 和 
其 他 的 更 专门 化 的 手持 操作 设备 。PDA 是 通用 计算 机 ， 可 以 运行 许多 不 同类 型 的 应 用 程序 ， 但 是 
与 笔记 本 电脑 和 笔记 本 相 比 ， 它 们 必须 在 大 小 、 电 池 容 量 和 相对 有 限 的 处 理 能 力 、 小 屏幕 和 其 他 
资源 限制 间 进 行 析 囊 。 制 造 商 陆续 为 PDA 装 配 了 与 笔记 本 电脑 相似 的 无 线 连 接 功能 。 
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手持 计算 的 一 个 有 趣 的 趋势 是 模糊 了 PDA、 手 机 和 专业 手持 设备 (例如 照相 机 ) 之 间 的 差别 。 
某 些 类 型 的 手机 通过 运行 Linux、Symbian 或 Microsoft Smartphone 操 作 系 统 获得 了 类 似 于 PDA 的 计 
算 功 能 。PDA 和 手机 可 以 装配 摄像 头 、 条 形 码 阅 读 器 和 其 他 类 型 的 特殊 配件 ， 使 它们 成 为 某 种 专 
业 手 持 设备 的 替代 品 。 例 如 ， 想 拍 数码 照片 的 用 户 可 以 使 用 专业 的 相机 ， 也 可 以 使 用 一 个 带 摄 像 
头 的 PPA， 或 可 拍 赂 手机 。 以 上 所 有 设备 都 自 带 (或 购买 ) 短 距 离 或 长 距离 的 无 线 连接 能 力 。 

Stojmenovic[2002] 介 绍 了 无 线 通 信 的 原理 和 协议 ， 包 括 本 章 所 研究 的 系统 需要 解决 的 网 络 层 
的 两 个 主要 问题 。 第 一 个 问题 是 当 移动 设备 进出 基站 覆盖 范围 时 ， 如 何 保证 它们 的 持续 连接 ， 基 
站 是 提供 无 线 覆 盖 区 域 的 基础 设施 。 第 二 个 问题 是 在 没有 基站 的 地 方 ， 设 备 集合 之 间 如 何 进行 无 
线 通信 ( 见 16.4.2 节 自 组 织 网 络 给 出 的 简洁 的 处 理 方法 )。 通 常 ， 在 两 个 给 定 设备 之 间 无 法 建立 直 
接 的 无 线 连接 时 ， 上 面 两 个 问题 都 会 出 现 。 通 信和 需要 经 由 几 个 无 线 或 有 线 网 段 来 完成 。 下 面 两 个 
因素 导致 无 线 槛 盖 必 须 划分 为 若干 子 覆 盖 。 第 一 ， 无 线 网 络 的 范围 越 大 ， 就 有 越 多 的 设备 竟 争 网 
络 的 有 限 带宽 。 第 二 ， 考 虑 能 量 的 使 用 ， 传 输 一 个 无 线 信 号 所 需 的 能 量 与 它 传 输 距离 的 平方 成 正 
比 ， 但 是 我 们 关注 的 很 多 设备 的 能 量 有 限 。 

无 处 不 在 计算 1988 年，Mark Weiser 提 出 了 无 处 不 在 计算 的 概念 [Weiser 1991]。 无 处 不 在 计 
算 有 时 也 称 为 普 适 计算 ， 这 两 个 术语 通常 被 认为 是 同 义 的 。“ 无 处 不 在 ”的 意思 是 “处 处 存在 的 ”。 
Weiser 看 到 了 计算 设备 的 普及 ， 并 相信 它们 会 让 我 们 使 用 计算 机 的 方式 产生 一 场 革命 性 的 变革 。 

首先 ， 人 世界 上 每 个 人 会 使 用 多 个 计算 机 ， 我 们 可 以 把 它 与 之 前 的 个 人 计算 机 革命 一 一 每 个 人 拥 
有 一 台 计 算 机 一 一 相提并论 。 尽 管 这 听 起 来 简单 ， 但 是 与 之 前 的 主机 时 代 ( 那 时 是 一 台 计算 机 有 多 
个 用 户 ) 相 比 ， 这 种 改变 将 对 我 们 使 用 计算 机 的 方式 产生 巨大 的 影响 。Weiser 的 “一 个 人 ， 多 台 
计算 机 ”的 理念 与 通常 的 理解 有 很 大 的 不 同 ， 通 常 的 理解 是 每 人 有 多 台 计 算 机 一 一 一 台 在 单位 ， 一 
台 在 家 里 ， 一 台 笔 记 本 电脑 和 一 个 可 能 随身 携带 的 PDA。 更 确切 地 说 ， 在 无 处 不 在 计算 中 ， 为 了 
适应 不 同 的 任务 ， 计 算 机 的 增加 是 在 形式 上 和 功能 上 ， 而 不 只 是 在 数量 上 。 

例如 ， 一 个 房间 内 的 所 有 固定 的 显示 屏 和 书写 工具 一 一 白板 、 书 、 纸 张 、 便 签 等 等 一 -被 几 十 
个 、 甚 至 上 百 个 带 有 电子 屏幕 的 计算 机 代替 。 白 板 可 以 协助 人 们 表达 、 组 织 和 归纳 他 们 的 想法 ， 
书本 可 以 变 成 设备 ， 使 读者 可 以 搜索 文本 、 查 找 词 意 、 在 Web 上 搜索 相关 的 想法 并 查看 连接 的 多 
媒体 内 容 。 现 在 ， 设 想 在 所 有 的 写作 工具 中 傣 入 计算 功能 。 例 如 ， 笔 和 各 种 标记 工具 能 存储 用 户 
写 的 和 画 的 内 容 ， 并 且 可 以 在 周围 的 多 台 计 算 机 之 间 收 集 、 拷 贝 和 移动 这 些 多 媒体 内 容 。 该 场景 
没有 考虑 可 用 性 和 经 济 性 问题 ， 而 且 它 只 涉及 我 们 生活 的 一 小 部 分 ， 但 它 给 了 我 们 关于 “计算 处 
处 存在 ”可 能 是 什么 样子 的 一 个 想法 。 

Weiser 预 测 的 第 二 个 转变 是 计算 机 将 要 “消失 ”一 一 它们 将 “渗透 于 日 常生 活 中 ， 直 至 不 可 
或 缺 。 这 在 很 大 程度 上 只 是 一 种 心理 概念 ， 正 如 和 人 们 认为 家 具 是 理所当然 该 有 的 ， 因 而 很 少 注意 
到 它们 。 这 反映 出 计算 机 将 融入 到 我 们 的 日 常用 品 中 去 一 一 正常 情况 下 ， 我 们 不 认为 这 些 物 品 具 
有 计算 能 力 ， 正 如 我 们 并 不 认为 洗衣 机 或 车 辆 是 “计算 设备 "， 即 使 它们 由 嵌入 在 其 中 的 微 处 理 器 
控制 一 有些 汽 车 中 有 大 约 100 个 微 处 理 器 。 

虽然 某 些 设备 是 不 可 见 的 一 一 例如 在 汽车 中 嵌入 计算 机 系统 的 情况 一 一 但 是 我 们 所 关心 的 设备 
并 不 都 是 这 样 的 ， 尤 其 是 移动 用 户 经 常 携带 的 设备 。 例 如 ， 手 机 在 当前 是 一 种 最 普遍 的 设备 ， 它 
的 计算 能 力 是 可 见 的 ， 并 且 无 疑 的 ， 它 也 应 该 是 可 见 的 。 

可 穿戴 计算 ”用 户 能 够 在 他 们 身上 携带 可 穿戴 设备 ， 可 以 附 在 他 们 衣服 的 外 面 或 里 面 ， 也 可 以 
像 戴 手表 、 珠 宝 和 眼镜 一 样 戴 在 身上 。 与 我 们 上 面 提 到 的 手持 设备 不 同 ， 这 些 设备 经 常 在 无 需 用 户 
操纵 的 情况 下 运行 。 它 们 通常 具有 特定 的 功能 。 一 个 早期 的 例子 是 “Active Badge”， 它 是 一 种 可 以 
夹 在 用 户 衣服 上 的 小 型 计算 设备 , 其 功能 是 定期 通过 一 个 红外 线 发 送 装置 广播 一 个 (与 用 户 相 关 的 ) 
标识 符 [Want et al 1992;Harter and Hopper 1994]。 标 记 点 的 作用 是 使 环境 中 的 设备 对 标记 发 送 的 信 
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息 做 出 响应 ， 从 而 对 用 户 的 出 现 做 出 响应 ， 红 外线 发 送 的 作用 范围 有 限 ， 所 以 只 有 用 户 在 附近 时 才 
能 被 设备 发 现 。 例 如 ， 一 个 电子 屏幕 可 以 依照 用 户 的 偏好 (例如 默认 的 绘画 颜色 和 线 宽度 ) 定制 行 
为 来 响应 用 户 的 出 现 (如 图 16-1 所 示 )。 可 以 根据 屋内 的 人 来 调整 房间 的 空调 和 灯光 的 设置 。 

2. 红外 线 传感器 探测 用 户 ID 





1. 带 有 Active Badge 的 
用 户 走 进 房间 


3. 显示 对 用户 做 
出 的 响应 


图 16-1 一 个 对 带 有 Active Badge 的 用 户 能 做 出 响应 的 房间 


止 下 文敏 感 计算 “Active Badge 一 一 或 者 说 是 其 他 设备 对 它 的 出 现 做 出 的 反应 一 一 作为 一 个 例 
子 解释 了 上 下 文敏 感 计算 。 上 下 文敏 感 计算 是 移动 计算 和 无 处 不 在 计算 中 一 个 很 重要 的 子 领域 。 
这 就 是 计算 机 系统 根据 物理 环境 自动 调整 它们 的 行为 。 这 些 环境 原则 是 物理 可 测量 的 或 可 觉察 的 ， 
例如 用 户 的 出 现 、 一 天 的 时 间或 大 气 的 状况 。 一 些 依赖 条 件 确 定 起 来 比较 简单 ， 例 如 根据 时 间 、 
日 期 和 地 理 位 置 判 断 现在 是 不 是 晚上 。 但 其 他 依赖 条 件 需要 经 过 复杂 的 处 理 来 检测 。 例 如 ， 考 虑 
一 个 上 下 文敏 感 的 手机 ， 它 只 在 适合 的 时 候 才 响 铃 。 特 别 是 ， 在 电影 院 ， 它 应 该 自动 切换 到 “ 振 
动 ” 而 不 是 “ 响 铃 "。 但 是 要 它 感 知 用 户 是 在 电影 院 里 看 电影 ， 还 是 站 在 电影 院 的 门廊 上 ， 却 不 是 
件 容易 的 事情 (假定 位 置 传感器 的 测量 并 不 准确 )。16.4 节 将 会 更 详细 地 介绍 上 下 文 。 


易 变 系统 


从 分 布 式 系 统 的 观点 看 ， 移 动 计算 和 无 处 不 在 计算 或 我 们 已 经 介绍 的 子 领域 (更 确切 的 说 ， 
还 包括 我 们 省 略 的 子 领域 〈 例 如 可 触摸 计算 [Ishii and Ullmer 1997] 和 类 似 Wellner 数 字 桌 面 的 强 真 
实感 领域 [Wellner 1991]) 之 间 没 有 本 质 的 区 别 。 在 本 节 中 ， 我 们 将 给 出 一 个 称 为 易 变 系统 的 模型 ， 
它 包括 了 以 上 所 有 领域 中 的 分 布 式 系统 的 本 质 特征 。 

我 们 之 所 以 称 本 节 所 描述 的 系统 是 “ 易 变 的 "， 是 因为 与 本 书 其 他 部 分 描述 的 大 多 数 系统 不 同 ， 
某 些 在 其 他 系统 中 异常 的 改变 在 该 系统 中 是 很 平常 的 。 移 动 系统 和 无 处 不 在 系统 中 的 用 户 、 硬 件 
和 软件 组 件 是 高 度 动态 的 ， 并 且 其 变化 不 可 预计 。 我 们 对 这 些 系统 有 时 使 用 另 一 个 词 : 自发 的 ， 
在 文献 中 该 词 出 现在 词组 自发 网 络 中 。 易 变性 的 相关 形式 包括 : 

“设备 和 通信 链接 故障 。 

“通信 特征 (例如 带宽 ) 的 改变 。 

“设备 上 的 软件 组 件 之 间 的 关联 一 一 逻辑 上 的 通信 关系 一 的 建立 和 中 断 。 

这 里 ， 术 语 “ 组 件 ” 包 括 任何 的 软件 单元 ， 例 如 对 象 或 进程 ， 而 不 管 它 是 进行 互 操作 中 的 一 
个 客户 、 一 个 服务 器 还 是 一 个 对 等 点 。 

第 15 章 已 经 介绍 了 一 些 处 理 改变 的 方法 ， 即 处 理 故 障 和 断 连 操作 的 方法 。 但 是 那里 的 解决 方 
案 将 进程 和 通信 故障 作为 异常 而 不 是 规则 ， 而 且 是 以 存在 元 余 处 理 资源 为 前 提 的 。 易 变 系统 不 但 
违反 了 前 述 假设 并 且 在 组 件 间 的 关联 中 加 入 了 甚至 更 多 的 变化 现象 ， 变 化 频率 更 显著 。 

在 我 们 深入 介绍 易 变性 之 前 ， 有 必要 澄清 一 些 误解 。 易 变性 不 是 移动 系统 和 无 处 不 在 系统 定 
义 的 一 个 属性 : 其 他 类 型 的 系统 也 显示 出 一 种 或 多 种 形式 的 易 变性 ， 但 是 它们 既 不 是 移动 的 也 不 
是 无 处 不 在 的 。 一 个 很 好 的 例子 是 对 等 计算 ,例如 文件 共享 应 用 ( 见 第 10 章 )， 其 中 参与 进程 集合 
和 集合 元 素 之 间 的 关联 都 在 频繁 地 发 生 改变 。 移 动 计算 和 无 处 不 在 计算 的 不 同 之 处 在 于 , -由 于 它 


们 与 物理 世界 集成 的 方式 ， 它 们 表现 出 了 上 述 易 变性 的 所 有 形式 。 我 们 将 对 物理 集成 和 如 何 产生 [66 
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易 变性 进行 更 多 介绍 。 但 是 物理 集成 不 是 分 布 式 系 统 的 属性 ， 而 易 变 性 则 是 分 布 式 系 统 的 属性 。 
因此 我 们 采用 易 变性 这 个 术语 。 

我 们 将 在 本 节余 下 的 部 分 描述 智能 空间 ， 它 是 易 变 系统 存在 的 环境 ， 之 后 我 们 将 描述 移动 和 
设备 无 处 不 在 设备 ， 它 们 的 物理 和 逻辑 连接 ， 以 及 在 低 信任 和 低 私 密 性 下 的 后 果 。 

智能 空间 物理 空间 非常 重要 ， 因 为 它 形成 了 移动 计算 和 无 处 不 在 计算 的 背景 。 移 动 性 发 生 在 
物理 空间 之 间 ， 无 处 不 在 计算 嵌入 在 物理 空间 内 。 智 能 空间 是 具有 嵌入 服务 的 物理 空间 ， 也 就 是 
说 ， 服 务 只 在 或 原则 上 在 物理 空间 内 提供 。 可 以 将 计算 设备 引入 野外 一 一 那里 没有 基础 设施 一 一 来 
执行 应 用 程序 ， 例 如 环境 监测 。 但 是 更 典型 的 移动 设备 和 无 处 不 在 系统 在 任何 时 间 都 存在 于 一 个 
有 计算 能 力 的 建筑 的 一 部 分 或 车 辆 环境 中 ， 例 如 房间 、 建 筑 、 广 场 或 火车 车 晴 。 在 这 些 情况 下 ， 
智能 空间 通常 包括 一 个 相对 稳定 的 计算 基础 设施 ， 基 础 设施 包括 常规 的 服务 器 、 设 备 〈 例 如 打印 
机 和 显示 器 )、 传 感 器 和 一 个 无 线 网 络 基础 设施 (能够 连接 到 因特网 ) 。 

在 智能 空间 中 存在 几 种 移动 或 “出 现 和 消失 ”。 第 一 ， 物 理 移动 性 。 智 能 空间 可 以 作为 访问 和 
离开 它们 的 设备 的 环境 。 例 如 ， 用 户 可 以 携带 或 穿戴 设备 进入 和 离开 ， 机 器 人 甚至 可 以 自己 移 人 
和 移出 空间 。 第 二 ， 逐 辑 移动 性 。 移 动 进 程 或 代理 可 能 移 人 或 移出 智能 空间 ， 或 者 移入 或 移出 用 
户 的 个 人 设备 。 而 且 ， 设 备 的 物理 移动 可 能 导致 其 内 部 组 件 的 逻辑 移动 。 然 而 ， 不 论 组 件 的 移动 
是 否 是 由 于 它 的 物理 设备 的 移动 造成 的 ， 不 会 发 生 有 意义 的 有 辑 移动 ， 除 非 组 件 改 变 了 它 与 其 他 
组 件 的 关联 。 第 三 ， 用 户 可 以 加 入 相对 静止 的 设备 (例如 多 媒体 播放 器 ) 使 其 在 空间 中 长 期 存在 。 
相反 ， 用 户 也 可 以 从 空间 中 撤 出 旧 设 备 。 例 如 ， 考 虑 叔 能 家 居 的 发 展 ， 居 住 者 经 过 一 段 时 间 之 后 ， 
就 会 以 一 种 相对 无 计划 的 方式 改变 其 中 的 设备 布置 [Edwards and Grinter 2001]。 最 后 ， 设 备 可 能 失 
效 并 从 空间 中 “消失 ”。 

从 分 布 式 系 统 观 点 看 ， 有 一 些 现象 是 类 似 的 。 在 每 种 情况 下 ， 一 个 软件 组 件 可 以 出 现在 一 个 
业已 存在 的 智能 空间 中 ， 并 且 如 果 有 感 兴趣 的 事件 形成 ， 那 么 它 将 与 空间 (至 少 是 暂时 的 ) 集 
成 ， 或 者 一 个 组 件 通过 移动 、 关 闭 或 者 失效 从 空间 中 消失 。 在 上 述 情 况 下 ， 任 何 特定 的 组 件 不 一 
定 能 够 区 分 “访问 ”设备 和 “基础 设施 ”设备 。 

然而 ， 在 设计 一 个 系统 时 ， 要 抽取 最 重要 的 区 别 。 易 变 系统 之 间 的 一 个 重要 区 别 是 变化 的 频 
率 。 用 于 处 理 一 天 中 少量 组 件 出 现 或 消失 的 算法 (例如 ， 在 智能 家 居 内 ) 与 用 于 处 理 任何 时 候 至 
少 有 一 个 组 件 变 化 的 算法 (例如 ， 在 一 个 拥挤 的 城市 ， 手 机 之 间 使 用 蓝牙 通信 实现 的 系统 ) 有 很 
大 的 不 同 。 此 外 ， 虽 然 以 上 的 出 现 和 消失 现象 看 上 去 相似 ， 但 依然 存在 很 大 的 区 别 。 例 如 ， 从 安 
全 性 的 角度 看 ， 用 户 的 设备 进入 智能 空间 是 一 件 事 ， 外 面 的 软件 组 件 进入 属于 该 空间 的 基础 设施 
设备 中 则 是 另 一 件 事 。 

设备 模型 随 着 移动 计算 和 无 处 不 在 计算 的 出 现 ， 一 种 新 型 的 计算 设备 成 为 分 布 式 系统 的 一 部 
分 。 该 设备 的 能 量 供给 和 计算 资源 有 限 ， 它 有 与 物理 世界 交互 的 途径 : 传感器 (例如 光线 检测 器 ) 
或 制动器 (例如 可 以 控制 移动 的 可 编程 工具 )。 

有 限 能 量 ， 物理 世界 中 的 便携 式 或 蔡 入 式 设备 通常 使 用 电池 ， 并 且 设 备 越 小 、 越 轻 ， 它 的 电 
字 容 量 就 越 小 。 从 时 间 (可 能 一 个 用 户 拥有 几 百 台 这 样 的 设备 ) 和 物理 访问 而 言 ， 更 换 电 池 或 充 
电 是 不 方便 的 。 计 算 、 访 问 内 存 或 其 他 形式 的 存储 动作 都 会 消耗 宝贵 的 能 量 。 无 线 通信 征 典 型 的 
能 量 密集 型 应 用 。 此 外 ， 接 收 一 条 消息 所 消耗 的 能 量 与 发 送 消息 所 需 能 量 相差 不 多 。 即 使 处 于 
“待机 ”模式 ， 在 此 模式 下 网 络 接口 准备 接收 消息 ， 也 需要 消耗 少许 的 能 量 [Shih et a1.2002]。 因 此 ， 
如 果 设 备 要 在 给 定 的 电池 容量 下 持续 尽 可 能 长 的 时 间 ， 算 法 就 需要 考虑 设备 消耗 的 能 量 ， 特 别 是 
根据 消息 复杂 度 来 考虑 ， 最 后 ， 由 于 电池 放电 ， 设 备 故 障 的 可 能 性 也 会 增加 。 

资源 限制 : 就 处 理 器 速度 、 存 储 能 力 和 网 络 带 宽 而 言 ， 移 动 设备 和 无 处 不 在 设备 的 计算 资源 
有 限 。 部 分 原因 是 我 们 若 提 高 这 些 特性 ， 能 量 消耗 就 会 随 之 增加 。 而 且 ， 若 要 实现 设备 便携 或 嵌 
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入 到 日 常 物 品 中 ， 就 需要 将 它们 做 得 很 小 ， 并 对 制作 过 程 加 以 限制 ， 限 制 每 个 节点 上 晶体 管 的 数 
目 。 这 会 引发 两 个 问题 : 尽管 资源 有 限 ， 如 何 设计 出 可 在 节点 上 用 合理 时 间 执 行 完 成 的 算法 ， 如 
何 利用 环境 中 的 资源 来 增强 节点 贫乏 的 资源 。 

传感器 和 制动器 : 为 了 使 设备 与 物理 世界 集成 一 一 特别 地 ， 使 得 它们 是 上 下 文敏 感 的 一 一 给 设 
备 配备 了 传感器 和 制动器 。 传 感 器 是 测量 物理 参数 并 把 值 传 给 软件 的 设备 ， 制 动 器 是 影响 物理 世 
界 的 由 软件 控制 的 设备 。 每 种 组 件 都 有 很 多 类 型 。 例 如 ， 有 测量 位 置 、 方 向 、 负 载 以 及 光线 和 声 
音 的 传感器 。 制 动 器 包括 可 编程 的 空调 控制 器 和 发 动机 。 传 感 器 的 一 个 重要 的 问题 是 精度 ， 因 为 
精度 很 有 限 ， 所 以 可 能 导致 虚假 的 行为 ， 例 如 一 个 不 合适 的 响应 导致 位 置 错 误 。 不 精确 可 能 是 这 
类 设备 的 一 个 特性 ， 因 为 它们 要 足够 廉价 以 便 可 以 到 处 部 署 。 

以 上 描述 的 设备 听 起 来 有 些 奇特 ， 然 而 ， 它 们 不 但 在 商业 上 是 可 用 的 ， 有 些 甚至 是 批量 生产 
的 。 这 样 的 例子 有 mote 和 拍照 手机 。 

mote: mote ( 微 尘 ) [Hill et al. 2000; www.xbow.com] 是 用 于 满足 应 用 程序 (例如 环境 感知 ) 
的 自治 操作 的 设备 。 它 们 被 设计 成 扯 入 式 的 、 可 编程 的 ， 这 样 它们 能 无 线 地 发 现 彼 此 并 且 在 它们 
之 间 传 送 感知 到 的 数据 。 例 如 ， 倘 若 有 一 场 森林 火灾 ， 那 么 散布 在 森林 周围 的 多 个 mote 就 能 感知 
到 不 正常 的 高 温 ， 并 且 通 过 其 他 mote 在 节点 把 信息 通知 给 一 个 较 高 功率 的 设备 ， 该 设备 能 够 把 这 
种 情况 传达 给 紧急 服务 。mete 的 最 基本 形式 是 ， 具有 一 个 低 功率 处 理 器 (一 个 微 控制 器 ) ， 该 处 理 
器 在 内 部 闪存 中 运行 TinyOS 操 作 系 统 [Culler et al. 2001]， 用 于 记录 数据 的 内 存 ， 一 个 短程 、 双 向 
地 使 用 “工业 、 科 学 和 医学 ”(ISM) 波段 的 无 线 电 收 发 机 。 还 可 以 包含 多 种 传感器 模块 。mote 也 
称 为 “智能 尘埃 "， 这 反映 了 这 些 设 备 微小 的 尺寸 ， 尽 管 在 写 书 时 它们 的 尺寸 大 约 是 6x3 x 1 厘米 
(不 包括 电池 组 和 传感器 ) 。Smart-its 以 一 种 类 似 的 形式 因素 (form factor) 提供 类 似 mote 的 功能 
[www.smart-its.org]。16.4.2 节 将 讨论 类 似 mote 的 设备 在 无 线 传感器 网 络 中 的 使 用 。 

拍照 手机 : 拍照 手机 在 我 们 考虑 的 系统 中 是 一 种 非常 不 同 的 设备 。 它 们 的 主要 功能 是 通信 和 
照相 。 但 是 ， 和 运行 诸如 Symbian 操作 系统 后 ， 它 们 就 可 编写 多 种 应 用 程序 。 除 了 它们 的 广 域 数据 连 
接 之 外 ， 通常 有 红外 线 (IrDA) 或 蓝牙 短程 无 线 网 络 接口 使 得 它们 可 以 彼此 连接 ， 或 与 PC 和 感知 
设备 连接 ， 例 如 用 于 确定 它们 位 置 的 GPS 或 其 他 卫星 导航 装置 。 此 外 ， 它 们 可 以 运行 软件 从 相机 图 
像 中 识别 符号 (例如 条 形 码 )， 使 得 它们 成 为 物理 物体 (例如 产品 ) 上 “编码 数值 ”的 传感器 ， 这 
些 传感器 信息 就 可 用 于 访问 相关 的 服务 。 例 如 ， 用 户 可 以 用 他 们 的 手机 从 产品 盒子 上 的 条 形 码 发 
现 商 店 产品 的 说 明 [Kindberg 2002]。 

易 变 连接 本 章 感 兴趣 的 设备 都 有 某 种 形式 的 无 线 连 接 , 而 且 可 能 会 有 多 种 。 连 接 技术 (蓝牙 、 
WiFi、GPRS 等 ) 根据 它 标 称 的 带宽 和 延迟 、 能 量 消 耗 以 及 是 否 需 要 为 通信 支付 费用 而 变化 。 但 是 
连接 的 易 变 性 一 一 在 运行 时 设备 之 间 的 连接 或 断 链 状态 的 易 变 性 和 服务 质量 的 易 变 性 一 一 对 系统 属 
性 也 有 很 大 的 影响 。 

断 链 : 无 线 断 链 与 有 线 断 链 有 很 大 的 不 同 。 我 们 描述 的 很 多 设备 是 移动 的 ， 并 且 可 能 超出 了 
与 其 他 设备 的 操作 距离 或 者 遇 到 了 无 线 电 障 碍 物 ， 例 如 建筑 物 。 即 使 设备 静 正 时， 也 可 能 有 移动 
的 用 户 或 车 辆 成 为 阻塞 物 而 导致 断 链 。 设 备 间 还 存在 多 跳 无 线路 由 的 问题 。 在 自 组 织 路 由 中 ， 一 
组 设备 之 间 彼 此 通信 ， 而 不 依赖 于 其 他 设备 : 它们 协作 路 由 所 有 的 包 。 以 森林 中 的 mote 为 例 ， 
mote 可 能 与 其 他 mote 在 无 线 电 范围 内 直接 通 售 ， 但 是 不 能 将 它 的 高 温 信 息 传送 给 紧急 服务 ， 因 为 
所 有 包 都 要 经 过 的 较 远 的 那个 mote 出 现 了 故障 。 

变化 的 带宽 和 延迟 ， 导致 完全 断 连 的 因素 也 可 能 导致 带宽 和 延迟 的 显著 变化 ， 因 为 它们 带 来 
错误 率 的 变化 。 随 着 错误 率 的 上 升 ， 越 来 越 多 的 包 被 丢弃 。 这 在 本 质 上 导致 了 吞吐 率 降低 。 然 而 
由 于 高 层 协 议 的 超时 ， 情 况 可 能 会 更 加 恶化 ， 很 难 设置 合适 的 超时 数值 来 适应 明显 变化 的 环境 。 
如 果 与 当前 的 错误 情况 相 比 ， 超 时 值 太 大 ， 那 么 延迟 和 雁 吐 量 就 会 受 影响 。 如 果 超 时 值 太 小 ， 可 
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能 会 增加 拥塞 而 且 浪 费 能 量 。 


人 工 驱动 : 
服务 驱动 : Web 浏 览 器 和 Web 服 务 器 


email 客户 和 服务 器 
数据 驱动 : 
P2P 文件 共享 应 用 
物理 驱动 : 
移动 系统 和 无 处 不 在 系统 


图 16-2 预 配 置 与 自发 关联 的 例子 


自发 互 操 作 在 易 变 系统 中 ， 随 着 组 件 的 移动 或 其 他 组 件 的 出 现 ， 就 会 改变 进行 组 件 间 通 信 的 
组 件 集合 。 我 们 使 用 术语 关联 来 表示 风 辑 关系 ， 当 一 对 给 定 的 组 件 中 的 至 少 一 个 组 件 与 另 一 个 组 
件 在 某 一 定义 好 的 时 间 段 内 通信 时 ， 逻 辑 关 系 就 会 产生 ; 使 用 术语 互 操作 表示 它们 在 关联 中 的 相 
互 作用 。 注 意 ， 关 联 不 同 于 连接 : 两 个 组 件 ( 例 如， 笔记 本 电脑 的 邮件 客户 端 和 邮件 服务 器 ) 可 
能 在 当前 已 经 断 连 ,但 仍然 可 以 保持 关联 。 

在 一 个 智能 空间 中 ， 组 件 可 以 充分 利用 与 本 地 组 件 相 互 作用 的 机 会 而 改变 关联 。 举 例 来 说 ， 
无 论 设备 出 现在 哪儿 ， 它 都 可 以 使 用 本 地 打印 机 。 类 似 地 ， 设 备 可 能 想 为 本 地 环境 中 的 客户 提供 
服务 一 一 例如 ， 用 户 穿戴 的 例如， 在 他 的 皮带 上 ) 的 个 人 服务 器 [Want et al. 2002]， 它 为 空调 装 
置 提供 用 户 的 匿名 属性 。 这 样 该 装置 能 根据 用 户 的 喜好 调整 房间 的 环境 。 当 然 ， 某 些 静 态 关 联 在 
易 变 系统 中 仍然 有 意义 。 例 如 ， 一 台 笔 记 本 电脑 跟随 它 的 主人 走 遍 世界 ， 但 仍然 仅 与 一 个 固定 的 
邮件 服务 器 通信 。 

为 了 将 这 种 类 型 的 关联 放 到 因特网 上 服务 的 大 背景 中 ， 图 16-2 给 出 了 三 种 类 型 的 自发 关联 的 
例子 (在 右边 )， 并 与 预 配置 关联 (在 左边 ) 相 比较 。 

[665)| 预 配置 关联 是 服务 驱动 的 。 也 就 是 说 ， 客 户 需要 长 期 使 用 一 种 特殊 服务 ， 所 以 他 们 通过 预 配 
置 以 便 与 之 关联 。 配置 客户 的 开销 (包括 用 所 需 服 务 的 地 址 建立 它们 ) 与 使 用 某 种 服务 的 长 期 收 
益 相 比 是 很 小 的 。 

在 图 的 右边 是 按 常 规 变化 的 关联 类 型 ， 包 括 由 人 工 操作 驱动 、 由 对 特殊 数据 的 需求 驱动 或 由 
物理 环境 的 改变 驱动 。 我 们 认为 ，Web 浏 览 器 和 Web 服 务 之 间 的 关联 是 自发 的 和 人 工 驱动 的 ， 用 户 
作出 动态 的 和 (从 系统 角度 看 ) 不 可 预测 的 点 击 ， 这 样 便 可 访问 服务 实例 。Web 是 个 真正 的 易 变 
系统 ， 对 于 它 的 成 功 而 言 ， 最 重要 的 是 关联 的 改变 通常 涉及 可 忽略 的 开销 一 一 Web 网 页 的 作者 已 经 
做 了 配置 工作 。 

因特网 上 的 对 等 网 络 应 用 程序 (例如 文件 共享 程序 ) 也 是 易 变 系统 ， 但 它们 主要 是 数据 驱动 
的 。 数 据 经 常 来 源 于 人 (例如 ， 所 寻找 的 内 容 的 名 字 )， 但 是 ， 正 是 提供 给 它 的 数据 值 导致 对 等 节 
点 通过 一 个 基于 数据 的 分 布 式 发 现 算法 与 另 一 个 对 等 节点 关联 ， 这 个 节点 与 它 以 前 可 能 从 未 关联 
过 ， 并 且 以 前 也 未 存储 过 该 节点 的 地 址 。 

本 章 讨论 的 移动 和 无 处 不 在 系统 与 现 有 的 大 规模 物理 驱动 的 自发 性 关联 不 同 。 关 联 的 建立 和 
破坏 (有 时 由 人 完成 ) 依据 组 件 当 前 的 物理 环境 ， 尤 其 是 它们 的 靠近 程度 。 

低 信任 和 私密 性 ”正如 第 7 章 所 述 ， 分布 式 系统 的 安全 基于 可 信任 的 硬件 和 软件 一 一 可 信任 的 
计算 基础 。 但 是 由 于 自发 性 互 操作 ， 易 变 系 统 中 信任 是 成 问题 的 : 能 自发 关联 的 组 件 间 的 信任 基 
础 是 什么 ? 在 智能 空间 之 间 移 动 的 组 件 可 能 属于 独立 的 个 体 或 组 织 并 且 对 彼此 或 可 信任 的 第 三 方 
了 解 很 少 。 
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私密 性 是 用 户 关心 的 主要 问题 ， 用 户 可 能 由 于 对 系统 的 感知 能 力 而 不 信任 系统 。 在 智能 空间 
中 ， 传 感 器 的 出 现 意味 着 它 可 以 在 先前 无 法 看 到 的 、 潜 在 巨大 的 范围 内 跟踪 用 户 。 通 过 上 下 文敏 
感 服务 〈 如 前 面 房间 的 例子 ， 可 依据 用 户 的 喜好 来 设置 空调 ) ， 用 户 可 以 让 他 人 知道 他 们 在 哪儿 和 
他 们 在 那儿 做 什么 。 更 糟糕 的 是 ， 他 们 可 能 并 没有 意识 到 他 们 被 感知 了 。 即 使 用 户 没有 暴露 他 们 
的 身份 ， 其 他 用 户 也 可 能 了 解 到 并 查找 出 到 底 是 哪 一 个 人 。 例 如 ， 通 过 观察 工作 地 点 与 住址 之 间 
的 有 规律 的 路 径 ， 并 且 将 那些 和 住址 与 工作 地 点 间 信 用 卡 的 偶尔 使 用 相关 联 。 


16.2 关联 


正如 上 面 所 描述 的 ， 设 备 容易 在 智能 空间 中 出 其 不 意 地 出 现 和 消失 。 尽 管 如 此 ， 易 变 组 件 需 
要 互 操作 一 一 最 好 没有 用 户 的 干预 。 也 就 是 说 ， 突 然 出 现在 智能 空间 中 的 设备 需要 能 通过 自 举 将 自 
己 引 导 进 局 域 网络 ， 从 而 与 其 他 设备 通信 ， 并 且 能 在 智能 空间 中 适当 地 关联 : 

* 网 络 自 举 ”通常 ， 通 信 发 生 在 局 域 网 内 。 设 备 必 须 首先 在 局 域 网 内 获得 一 个 地 址 (或 注册 一 

个 已 存在 的 地 址 ， 例 如 移动 IP 地 址 )。 它 可 能 还 要 获得 或 注册 一 个 名 字 。 

“关联 =” 设备 上 的 组 件 或 者 关联 到 智能 空间 中 的 服务 ， 或 者 为 智能 空间 的 其 他 组 件 提供 服务 ， 

或 者 两 者 都 有 。 

网 络 自 举 ”目前 已 有 很 好 的 方法 来 解决 网 络 中 设备 的 集成 问题 。 某 些 解决 方案 必须 访问 智能 空 
间 中 的 服务 器 。 例 如 ，DHCP 服 务 器 ( 见 3.4.3 节 ) 能 提供 IP 地 址 、 其 他 网 络 和 DNS 参数 ， 设 备 通过 
给 一 个 众所周知 的 广播 地 址 发 出 一 个 查询 获得 这 些 信息 。 智 能 空间 中 的 服务 器 也 可 以 给 设备 分 配 
一 个 唯一 的 域名 ， 如 果 已 经 开放 了 对 因特网 的 访问 ， 那 么 设备 可 以 使 用 - -个 动态 DNS 更 新 服务 来 
注册 它 的 新 的 耳 地 址 ， 以 取代 一 个 静态 的 域名 。 

一 个 很 有 趣 的 情况 是 在 没有 任何 服务 基础 设施 的 情况 下 ， 如 何在 智能 空间 中 (甚至 其 外 ) 分 
配 网 络 参 数 。 这 对 于 简化 智能 空间 和 避免 可 能 失败 的 服务 间 的 依赖 是 很 有 帮助 的 。IPV6 标 准 包括 
一 个 无 服务 器 地 址 分 配 协议 。IBTF 的 零 配 置 联网 工作 组 [www.zeroconf.org] 正 在 为 无 服务 器 地 址 分 
配 、 域 名 查找 、 组 播 地 址 分 配 和 服务 发 现 ( 见 下 一 节 ) 开发 标准 。 华 果 电 脑 公司 (Apple) 的 
Rendezvous [www.apple.com] 是 一 个 包含 上 述 大 多 数 功能 的 商业 实现 。 就 像 DHCP 访 问 一 样 ， 所 有 
的 这 些 方法 通过 使 用 一 个 众所周知 的 地 址 在 局 域 网 内 进行 广播 和 组 播 。 任 何 设备 都 能 向 这 个 地 址 
发 送 消息 ， 也 能 监听 发 往 这 个 地 址 的 消息 ， 并 且 只 涉及 设备 自己 的 网 络 接口 。 

关联 问题 和 边界 原理 一 旦 设备 能 在 智能 空间 中 通信 ， 它 就 面临 着 关联 问题 ， 在 智能 空间 中 如 
何 适当 地 关联 。 解 决 关联 问题 方案 必须 处 理 好 两 个 方面 的 问题 规模 和 范围 第 一 ， 智 能 空间 中 每 


立方 米内 有 几 十 甚至 几 百 个 设备 ， 并 且 在 这 些 设备 上 可 能 有 更 大 数量 级 的 软件 组 件 。 突 然 出 现 的 设 


备 上 的 组 件 应 该 与 原 智能 空间 中 的 哪些 组 件 交 互 (如 果 有 的 话 )? 如 何 保证 这 种 选择 是 高 效 的 ? 

第 一 ， 当 解决 了 上 面 的 问题 后 ， 我 们 如 何 限制 范围 ， 以 便 只 需要 考虑 智能 空间 中 的 组 件 (或 
者 智能 空间 中 的 所 有 组 件 ) 而 不 是 其 外 的 成 千 上 万 个 组 件 ? 范围 并 不 仅仅 指 规模 问题 。_ 个 智能 
空间 通常 有 管理 和 领域 边界 ， 这 对 用 户 和 管理 者 有 非常 大 的 区 别 。 例 如 ， 如 果 宾 馆 房间 内 一 个 设 
备 想 发 现 一 个 服务 (例如 打印 机 )， 它 就 必须 要 在 它 的 用 户 房间 内 (而 不 是 隔壁 房间 ) 找到 一 个 打 
印 机 。 同 样 的 ， 如 果 在 用 户 房间 内 有 合适 的 打印 机 ， 那 么 解决 方案 应 该 将 它 作为 一 个 关联 的 候选 
包括 在 内 。 

边界 原理 就 是 指 智能 空间 需要 有 系统 边界 ， 它 精确 地 对 应 于 一 个 有 意义 的 空间 ， 因 为 它 是 在 
空间 范围 上 和 管理 上 有 正规 定义 的 [Kindberg and Fox 2001]。 那 些 “ 系 统 边界 ” 是 系统 定义 的 标准 
范围 ， 在 其 内 不 必 限 制 关联 。 

一 个 尝试 解决 关联 问题 的 方案 是 通过 使 用 下 文 描述 的 一 个 发 现 服务 ， 它 具有 Jini 发 现 服务 的 一 
个 账户 。 发 现 服务 通常 基于 子 网 组 播 ， 其 缺点 是 子 网 范围 可 能 与 智能 空间 中 可 用 的 服务 不 一 致 一 
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它们 破坏 了 边界 原理 。16.2.2 节 将 描述 一 些 解决 方案 ， 这 些 解决 方案 依赖 物理 参数 和 人 工 输入 以 提 
供 更 精确 范围 的 关联 。 


16.2.1 发 现 服务 


客户 使 用 发 现 服务 来 发 现 智能 空间 提供 的 服务 。 发 现 服务 是 一 个 目录 服务 ( 见 9.3 节 )， 智 能 空 
间 的 服务 在 其 中 注册 ， 并 将 它们 的 属性 作为 查找 的 关键 字 ， 但 是 它们 的 实现 要 考虑 易 变 系统 的 特 
性 。 这 些 特性 包括 : 第 一 ， 某 个 客户 所 要 求 的 目录 数据 (即将 要 查询 的 服务 的 属性 集合 ) 在 运行 
时 才能 确定 。 作 为 客户 上 下 文 ( 指 发 生 查询 的 智能 空间 ) 的 一 个 功能 ， 目 录 数 据 是 动态 确定 的 。 
第 二 ， 智 能 空间 中 可 能 没有 存放 目录 服务 器 的 基础 设施 。 第 三 ， 目 录 中 注册 的 服务 可 能 自发 消失 。 
第 四 ， 访 问 目录 使 用 的 协议 应 该 了 解 它 们 所 消耗 的 能 量 和 带宽 。 

目前 ， 存 在 设备 发 现 服务 和 服务 发 现 服务 ， 蓝 牙 包 括 这 两 者 。 客 户 通 过 设备 发 现 获 得 设备 的 
名 字 和 地 址 。 通 常 ， 他 们 随即 根据 额外 信息 (例如 由 人 选择 ) 选择 一 个 单独 的 设备 ， 并 查询 它 所 
提供 的 服务 。 另 一 方面 ， 当 用 户 不 关心 他 们 所 需要 的 服务 由 哪个 设备 提供 ， 而 是 只 是 关心 服务 的 
属性 时 ， 他 们 就 可 以 使 用 服务 发 现 服务 。 本 节 的 描述 将 集中 在 服务 发 现 服务 上 ， 除 非特 别 说 明 ， 
否则 这 就 是 我 们 之 前 所 说 的 发 现 服务 的 意思 。 

可 以 用 接口 来 自动 注册 和 注销 可 用 于 关联 的 发 现 服务 ， 客 户 也 可 以 通过 接口 查找 当前 可 用 的 
服务 ， 从 而 继续 与 合适 的 服务 关联 。 图 16-3 给 出 这 些 接口 的 一 个 假想 的 、 简 化 的 例子 。 首 先 ， 通 过 
函数 调用 用 给 定 的 地 址 和 属性 注册 可 用 的 服务 ， 并 且 通 过 调用 来 管理 随后 的 注册 。 之 后 ， 若 有 函 
数 调用 查找 与 所 需 属 性 匹配 的 服务 ， 则 可 能 有 零 个 或 多 个 服务 匹配 ， 每 一 个 服务 返回 它 的 地 址 和 
属性 。 注 意 ， 仅 有 发 现 服务 不 能 启用 关联 : 可 能 需要 服务 选择 一 一 从 返回 集合 中 选择 一 个 服务 。 这 
可 以 由 编程 实现 ， 或 者 通过 列 出 匹配 的 服务 让 用 户 来 选择 。 

已 开发 的 发 现 服务 包括 Jini 发 现 服务 ( 见 下 面 )、 服 务 位 置 协议 [Guttman 1999]、 意 图 命名 系统 
[Adjie-Winoto et al.1999]、 简 单 服 务 发 现 协 议 ( 它 是 通用 即 插 即 用 项 目 [www.upnp.org] 的 核心 ) 和 
安全 服务 发 现 服务 [Czerwinski et al. 1999]。 此 外 还 有 链 路 层 发 现 服务 ， 例 如 蓝牙 。 





lease := register(address, attributes) 用 给 定 的 属性 ， 在 给 定 的 地 址 注册 服务 ， 返回 一 个 租 期 
refresh(lease) 刷新 注册 时 返回 的 租 期 
deregister(lease) 删除 在 给 定 租 期 下 注册 的 服务 记录 


serviceSet := guery(attributeSpecification) 返回 一 个 注册 服务 的 集合 ， 其 属性 与 给 定 的 说 明 匹 配 


图 16-3 发 现 服务 的 接口 


设计 一 个 发 现 服 务 所 需 处 理 的 问题 如 下 : 

* 低能 耗 、 合 适 的 关联 。 理 想 情 况 下 ， 合 适 的 关联 应 该 在 无 任何 人 为 控制 因素 下 进行 。 第 一 ， 
查询 操作 (参见 图 16-3) 返回 的 服务 集合 应 该 是 合适 的 一 一 它们 应 该 是 智能 空间 中 精确 符合 
查询 的 服务 。 第 二 ， 应 该 通过 编程 或 者 利用 少量 的 人 工 输 入 选择 满足 用 户 需 要 的 服务 。 

* 服务 描述 和 查询 语言 。 整 体 目标 是 匹配 客户 请 求 的 服务 。 预 先 假设 一 种 语言 用 于 描述 可 用 服 
务 ， 另 一 种 语言 用 于 表示 服务 请 求 。 查 询 和 描述 语言 应 该 一 致 (或 可 翻译 )， 并 且 它 们 的 表 
达能 力 应 该 紧 跟 新 设备 和 服务 的 发 展 。 

* 智能 空间 特定 的 发 现 。 我 们 需要 一 种 机 制 以 便 让 设备 访问 适合 它们 当前 物理 环境 的 发 现 服务 
的 一 个 实例 (或 范围 )， 这 是 一 种 设备 不 需要 预先 知道 该 服务 的 名 字 或 地 址 的 机 制 。 实 际 上 ， 
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发 现 服务 仅 通过 在 与 它 交互 的 子 网 的 有 限 范围 内 的 组 播 才能 与 某 一 智能 空间 产生 关联 ， 稍 后 

我 们 将 说 明 这 一 点 。 

“ 目录 实现 。 逻 辑 上 ， 发 现 服务 的 每 个 实例 都 包括 可 用 服务 的 一 个 可 查询 的 目录 。 有 多 种 方式 

可 实现 这 样 一 个 目录 ， 这 些 方 法 所 需 的 网 络 带 宽 、 所 提供 的 服务 发 现 的 及 时 性 和 能 量 消耗 都 

不 相同 。 

* 服务 易 变 性 。 易 变 系统 的 任何 服务 都 要 有 效 而 妥善 地 处 理 一 个 客户 的 消失 。 发 现 服务 作为 客 

户 服务 ， 应 恰当 地 处 理 服 务 消失 。 

作为 通过 发 现 而 关联 的 一 个 例子 ， 考 虑 一 个 偶然 或 第 一 次 去 主人 家 或 宾馆 的 客人 ， 他 需要 从 
笔记 本 电脑 上 打印 一 份 文档 。 用 户 当然 不 能 认为 在 他 的 笔记 本 电脑 上 配置 了 当地 某 打印 机 的 名 字 ， 
或 者 能 猜测 出 它们 的 名 字 〈 例 如 ，\Nmyrtlevitus 和 Nlionelrederick)。 与 强制 用 户 在 访问 时 配置 他 们 
的 机 器 相 比 ， 更 好 的 方法 是 让 笔记 本 电脑 使 用 发 现 服务 的 查询 调用 来 查找 满足 用 户 需 要 的 可 用 的 
网 络 打印 机 集合 。 可 以 通过 与 用 户 的 交互 或 者 参考 用 户 的 偏好 记录 来 选择 某 个 打印 机 。 

打印 服务 所 要 求 的 属性 可 能 有 说 明 它 是 “激光 ”还 是 “ 喷 墨 "， 它 是 否 提供 彩色 打印 ， 以 及 它 
相对 于 用 户 的 物理 位 置 (例如 ， 房 间 号 ) 。 

相应 地 ， 服 务 通过 注册 调用 将 它 的 地 址 和 属性 提供 给 发 现 服务 。 例 如 ， 打 印 机 (或 管理 它 的 
服务 ) 可 进行 如 下 注册 以 便 向 发 现 服务 提供 它 的 地 址 和 属性 : 

serviceAddress=http://www.hotelDpuLac.com/services /printer57;resource- 

Class=printer, type=laser, colour=yes, resolution=600dpi, location=room101 

在 运行 时 ， 在 无 手动 配置 情况 下 ， 自 举 访问 本 地 目录 服务 的 一 般 方法 就 是 使 用 局 域 子 网 的 可 
达 范 围 。 具 体 地 说 ， 在 局 域 子 网 内 向 一 个 众所周知 的 IP 组 播 地 址 组 播 (或 广播 ) 查询 。 所 有 需要 
访问 发 现 服务 的 设备 事先 知道 这 个 众所周知 的 IP 组 播 地 址 。 只 基于 网 络 可 达 范 围 的 发 现 服务 有 时 
明确 地 称 为 网 络 发 现 服务 。 

注意 ， 有 些 网 络 〈 例 如 蓝牙 ) 使 用 跳 频 ， 所 以 不 能 在 物理 层 同时 与 所 有 相 邻 设备 通信 。 蓝 牙 
使 用 “众所周知 地 址 ”的 等 价 方法 实现 发 现 ， 即 一 个 众所周知 的 跳 频次 序 来 实现 。 可 发 现 设备 频 
率 周期 比试 图 发 现 它们 的 设备 慢 ， 这 样 发 送 者 (发 现 者 ) 和 接收 者 最 后 可 以 在 频率 上 达成 一 致 并 
建立 通信 。 

实现 发 现 服务 时 有 几 种 设计 选择 ， 不 同 的 设计 对 实现 会 有 很 大 的 影响 。 

第 一 个 选择 是 发 现 服务 应 该 由 日 录 服 务 器 实现 ， 还 是 不 需要 服务 器 。 目 录 服 务 器 保存 注册 过 的 
服务 的 描述 ， 并 对 客户 发 出 的 服务 查询 做 出 响应 。 任 何 想 使 用 本 地 目录 服务 器 的 组 件 (服务 器 或 客 
户 ) 发 出 一 个 组 播 请 求 来 定位 它 ， 目 录 服 务 器 以 它 的 单 播 地 址 作为 响应 。 之 后 ,组件 与 目录 服务 器 
进行 点 对 点 通信 一 一 避免 了 采用 组 播 通信 时 对 无 关 设 备 的 干扰 。 这 种 方法 在 提供 了 基础 设施 的 智能 
空间 中 运作 良好 。 目 录 服 务 经 常 运行 于 一 个 有 稳定 电源 的 机 器 。 但 是 ， 在 简单 会 议 室 这 样 的 简单 智 
能 空间 中 ， 没 有 用 于 目录 服务 器 的 设施 。 原 则 上 ， 可 以 从 现场 的 设备 中 选择 一 台 服 务 器 (参见 12.3 
节 )， 但 是 这 样 的 服务 器 可 能 自发 地 消失 。 这 可 能 导致 发 现 服务 的 客户 端的 实现 的 复杂 性 ， 因 为 客 
户 不 得 不 去 适应 一 个 变化 的 注册 服务 器 。 此 外 ， 在 高 易 变 系 统 中 重新 选举 带 来 的 负载 可 能 很 大 。 

另 一 种 方法 是 无 服务 器 发 现 ， 其 中 参与 的 设备 通过 协作 实现 一 个 分 布 式 发 现 服 务 ， 以 此 代替 
目录 服务 器 。 至 于 分 布 式 目录 ， 分 布 式 发 现 服务 有 两 种 主要 的 实现 。 在 推 模型 中 ， 服 务 定期 组 播 
( 广告 ) 它们 的 描述 。 客 户 监听 这 些 组 播 并 对 它们 发 起 查询 ， 并 可 能 缓存 描述 以 备 以 后 使 用 。 在 
拉 模 型 下 ， 客 户 组 播 他 们 的 查询 。 提 供 服务 的 设备 比较 它们 的 描述 和 这 些 查询 是 否 匹 配 ， 只 响应 
那些 匹配 的 描述 。 如 果 没 有 响应 ， 客 户 间隔 一 段 时 间 后 重复 它们 的 查询 ， 

推 和 拉 两 种 模型 都 涉及 带宽 和 能 量 的 使 用 。 每 次 设备 发 出 一 个 组 播 消 息 ， 都 令 消 耗 带宽 并 且 
所 有 的 监听 设备 都 要 消耗 能 量 来 接收 消息 。 在 纯 推 模型 下 ， 设 备 要 定期 广告 它们 的 服务 ， 以 便 客 
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户 发 现 它 们 。 但 是 如 果 没 有 客户 需要 服务 ， 就 会 对 带宽 和 能 量 造成 浪费 。 而 且 客 户 等 待 服务 的 时 
间 要 与 消耗 的 带宽 和 能 量 相 权衡 ， 而 带宽 和 能 量 消耗 随 广告 的 频率 的 增加 而 增加 。 

在 纯 拉 模 型 下 ， 可 用 的 服务 一 出 现 ， 客 户 就 能 够 发 现 它 。 在 给 定 的 间隔 内 若 没 有 发 现 需求 就 
不 会 有 组 播 浪 费 。 客 户 可 能 收 到 多 个 响应 ， 但 只 要 一 个 响应 就 够 了 。 在 默认 情况 下 ， 对 频繁 需要 
的 服务 ， 无 法 利用 包含 相同 查询 的 请 求 来 提高 效率 。 

可 以 设计 混合 协议 来 解决 上 面 的 缺陷 ， 习 题 16.2 将 涉及 这 个 问题 。 

一 个 服务 在 它 消 失 之 前 会 调用 注销 函数 (参见 图 16-3) ， 但 同样 地 它 也 可 能 自发 地 消失 。 根 据 
目录 实现 的 体系 结构 ， 服 务 易 变性 有 多 种 处 理 方法 。 注 册 的 服务 消失 后 ， 目 录 服 务 器 需要 尽快 知 
道 这 个 情况 ， 这 样 它 才 不 会 错误 地 发 出 它 的 描述 。 通 常 使 用 一 个 称 为 租 期 的 通用 机 制 实现 这 一 目 
标 。 租 期 是 服务 器 给 客户 临时 分 发 一 些 资源 ， 在 租 期 过 期 之 前 ， 客 户 要 进一步 发 生 请 求 加 以 续 租 。 
如 果 客 户 续 租 失 败 (例如 ， 使 用 图 16-3 的 refresh 函 数 )， 服 务 器 就 会 收回 (并 且 可 能 重新 分 配 ) 资 
源 。 我 们 在 5.2.6 节 作为 Jini 的 一 部 分 介绍 了 租 期 ， 而 且 DHCP 服 务 器 在 分 配 耳 地 址 时 也 使 用 了 租 期 。 
只 有 当 服 务 定期 与 目录 服务 器 通信 并 更 新 项 的 租 期 时 ， 目 录 服 务 器 才 会 保存 服务 的 注册 。 在 这 里 ， 
我 们 看 到 一 个 类 似 在 及 时 性 与 带宽 和 能 量 消耗 之 间 进 行 权衡 的 方法 一 一 租 期 越 短 ， 服 务 消失 的 通知 
就 发 得 越 快 ， 但 是 需要 的 网 络 和 能 量 资源 越 多 。 在 无 服务 器 体系 结构 中 ， 不 需要 采取 任何 步骤 
(除了 清除 缓存 服务 的 设备 中 的 陈旧 项 信息 ) ， 因 为 已 经 消失 的 服务 不 再 广告 自己 ， 并 且 使 用 基于 
拉 协 议 的 客户 只 能 发 现 当 前 的 服务 。 

Jini Jini[Waldo 1999; Arnold et al.1999] 是 用 于 移动 系统 和 无 处 不 在 系统 的 。 它 完全 基于 
Java 一 一 它 假定 Java 虚 拟 机 在 所 有 的 计算 机 中 运行 ， 允 许 它 们 之 间 通 过 RMI 或 事件 〈 见 第 5 章 ) 进 
行 通信 并 且 能 在 必要 时 下 载 代码 。 接 下 来 我 们 描述 Jini 的 发 现 系统 。 





1. 有 属于 “财政 ”组 
的 查找 服务 吧 ? 






和 Hk 
图 16-4 Jini 中 的 服务 发 现 
Jini 系 统 中 与 发 现 相关 的 组 件 是 查找 服务 、Jini 服 务 和 Jini 客 户 (参见 图 16-4)。 查 找 服 务实 现 
了 我 们 所 说 的 发 现 服务 ， 尽 管 Jini 只 为 发 现 “ 查 找 服务 ”本 身 使 用 术语 “发 现 ”。 查 找 服务 允许 Jini 
服务 注册 它们 所 提供 的 服务 ， 并 允许 Jini 客 户 请 求 与 它们 需求 相 匹 配 的 服务 。 一 个 Jini 服 务 (例如 
打印 服务 ) 可 以 在 一 个 或 多 个 查找 服务 上 注册 。Jini 服 务 所 提供 的 同时 也 是 查找 服务 所 存储 的 是 提 
供 该 服务 的 对 象 以 及 该 服务 的 属性 。Jini 客 户 为 了 查找 符合 它们 需求 的 Jini 服 务 ， 首 先 查 询 查 找 服 
务 ， 如 果 找 到 匹配 的 服务 ， 就 从 查找 服务 上 下 载 提供 访问 该 服务 的 一 个 对 象 。 给 客户 请 求 提供 的 
服务 可 以 基于 属性 或 者 Java 类 型 ， 例 如 允许 客户 请 求 一 台 具 有 相应 Java 接 口 的 彩色 打印 机 。 
当 Jini 客 户 或 服务 启动 时 ， 它 发 送 一 个 请 求 给 一 个 众所周知 的 IP 组 播 地 址 。 接 收 到 该 消息 ， 并 
可 以 响应 它 的 查找 服务 都 返回 自己 的 地 址 ， 使 得 请 求 者 执行 一 个 远程 调用 来 查找 或 注册 一 个 服务 
(在 Jini 中 注册 称 为 加 入 )。 查 找 服务 通过 发 送 数 据 报到 同一 组 播 地 址 宣布 它们 自身 的 存在 ，Jini 客 
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户 和 服务 也 可 能 监听 组 播 地 址 以 便 它们 发 现 新 的 查找 服务 。 

从 一 个 给 定 的 Jini 客 户 或 服务 的 组 播 通信 可 能 到 达 多 个 查找 服务 的 实例 。 每 个 这 样 的 服务 实例 
配置 了 一 个 或 多 个 组 名 字 ， 例 如 “管理 ”、 “财政 ”和 “销售 ”"”， 这 些 将 作为 范围 标签 。 图 16-4 展 示 
了 一 个 Jini 客 户 发 现 和 使 用 打印 机 服务 的 例子 。 客 户 需 要 一 个 “财政 ”组 中 的 查找 服务 ， 所 以 它 组 
播 一 条 带 有 该 组 名 字 的 请 求 (图 中 的 请 求 1) 。 只 有 一 个 绑 定 到 “财政 ”组 的 查找 服务 (该 服务 也 
绑 定 到 “管理 ”组 ) ， 该 服务 做 出 响应 (2) 。 查 找 服务 的 响应 包括 它 的 地 址 ， 然 后 客户 通过 RMI 直 
接 与 它 通信 来 定位 所 有 类 型 为 “打印 ”的 服务 (3)。 只 有 一 个 打印 服务 注册 到 “财政 ”组 的 查找 
服务 上 ， 因 此 返回 一 个 用 于 访问 该 服务 的 对 象 。 最 后 ， 客 户 利用 返回 的 对 象 直 接 使 用 该 打印 服务 
(4)。 图 16-4 显 示 了 另 一 个 位 于 “管理 ”组 的 打印 服务 ， 还 有 一 个 不 绑 定 到 任何 组 的 公司 信息 服务 
(并 且 它 可 能 向 所 有 的 查找 服务 注册 了 ) 。 

关于 网 络 发 现 服务 的 讨论 ”刚刚 描述 过 的 基于 网 络 可 达 区 域 的 发 现 服务 - -网络 发 现 服务 一 
采取 了 一 些 措施 米 解决 关联 问题 。 存 在 有 效 的 目录 实现 ， 包 括 那 些 不 依赖 于 基础 设施 的 实现 。 在 
很 多 情况 下 ， 就 计算 和 网 络 代价 而 言 ， 通 过 子 网 可 到 达 的 客户 和 服务 的 数目 是 可 管理 的 ， 所 以 规 
模 通常 不 是 问题 。 我 们 已 经 描述 了 用 于 处 理 系统 易 变 性 的 措施 。 

然而 ， 从 边界 原理 的 角度 来 看 ， 网 络 发 现 服务 引发 了 两 个 困难 : 子 网 的 使 用 和 服务 描述 方式 
的 不 完备 。 

子 网 近似 于 一 个 智能 空间 。 第 一 ， 网 络 服务 可 能 错误 地 包括 并 不 属于 智能 空间 的 服务 。 例 如 
考虑 一 个 宾馆 房间 。 基 于 无 线 射 频 (RF) 信号 (例如 802.11 或 蓝牙 ) 的 传送 通常 会 穿 透 墙壁 到 达 
另 一 个 客房 。 效 仿 Jini 例 子 ， 将 服务 在 逻辑 上 按 组 划分 一 每 个 宾馆 房间 为 一 组 。 但 是 它 避 开 了 用 
户 房间 号 如 何 成 为 发 现 服务 的 一 个 参数 的 问题 。 第 二 ， 网 络 发 现 可 能 错误 地 忽视 了 “在 ”智能 空 
间 中 但 超出 子 网 的 服务 。Cooltown 实 例 研 究 ( 见 16.7.1 节 ) 说 明了 非 电子 实体 (例如 智能 空间 中 要 
打印 的 文档 ) 是 如 何 与 智能 空间 外 的 服务 关联 的 。 

此 外 ， 网 络 发 现 服务 不 总 是 能 产生 合适 的 关联 ， 因 为 用 于 描述 服务 的 语言 可 能 在 下 面 两 个 方 
面 是 不 完备 的 。 第 一 ， 发 现 可 能 是 脆弱 的 : 不 同 组 织 使 用 的 服务 描述 词汇 的 微小 变化 都 可 能 导致 
发 现 失败 。 例 如 ， 宾 馆 房间 有 个 名 为 “Print” 的 服务 ， 然 而 房客 的 笔记 本 电脑 搜索 的 是 名 为 
“Printing” 的 服务 。 人 类 语言 在 词汇 上 的 各 种 变化 更 容易 加 剧 这 个 问题 。 第 二 ， 可 能 会 失去 机 
会 -一 错失 访问 服务 的 机 会 。 例 如 ， 在 宾馆 房间 的 墙壁 上 有 个 “数码 相框 "， 它 会 以 JPEG 格 式 显 示 
假日 快照 。 房 客 的 相机 有 无 线 连接 ， 并 且 生成 该 格式 的 图 像 ， 但 是 它 没有 该 服务 的 描述 一 它 没 有 
随 着 最 近 的 发 展 进行 更 新 。 因 此 相机 不 能 利用 该 服务 。 


16.2.2 物理 关联 


网 络 发 现 系统 的 缺陷 在 一 定 程度 上 可 使 用 物理 方法 解决 ， 尽 管 解决 方案 经 常 在 要 很 大 程度 上 
需要 人 为 的 参与 。 目 前 已 经 开发 的 技术 如 下 ， 

采用 人 工 输入 界定 发 现 的 范围 人 向 设备 提供 输入 ， 以 便 设置 发 现 范围 。 该 技术 的 一 个 简单 例 
子 是 输入 或 选择 智能 空间 的 标识 符 ， 例 如 房客 的 房间 号 。 之 后 ， 设 备 可 以 将 标识 符 作为 一 个 额外 
服务 “组 ”属性 (就 像 在 Jini 中 那样 ) 。 

采用 传 感 技术 和 物理 受 限 通道 界定 发 现 的 范围 ”一 个 可 能 减少 用 户 参 与 的 方法 是 在 他 们 的 设备 上 
使 用 传感器 。 例 如 ， 智 能 空间 可 能 有 一 个 标识 符 ， 在 文档 和 空间 表面 一 例如， 显示 在 旅客 房间 的 电 
视屏 幕 上 一 一 基于 标识 符 进 行 编码 的 符号 ( 称 为 象形 文字 ) 表示 。 房 客 使 用 他 们 的 可 拍照 手机 或 其 他 
图 像 设 备 来 解码 这 种 符号 ， 接 着 设备 以 我 们 描述 的 用 户 直接 输入 的 方式 使 用 该 结果 标识 符 。 为 了 使 用 
具有 卫星 导航 信号 的 智能 空间 ， 另 一 种 可 能 的 方法 是 使 用 传感器 来 得 到 智能 空间 的 纬度 和 经 度 坐 标 位 
置 ， 并 且 把 那些 坐标 发 送 给 一 个 众所周知 广 域 服务 ， 该 服务 返回 本 地 发 现 服务 的 地 址 。 然 而 ， 在 卫星 
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导航 不 精确 的 情况 下 ， 如 果 旁 边 有 其 他 的 智能 空间 ， 该 方法 对 智能 空间 的 识别 就 可 能 不 准确 了 。 

另 一 种 避免 人 工 输入 的 技术 是 使 用 物理 受 限 通道 (参见 16.5.2 节 ) 它 是 一 种 通信 通道 ， 可 
以 近似 地 认为 它 只 作用 于 智能 空间 所 在 的 物理 范围 内 。 例 如 ， 在 客房 内 ， 电 视 可 能 正在 以 低音 播 
攻 背 景 音乐 ， 房 间 标识 符 的 数字 编码 被 登 加 为 音乐 信号 的 一 个 听 不 见 的 微 扰 [Madhavapeddy et al 
20031， 房 间 内 也 可 能 有 一 个 红外 线 发 射 器 (一 个 信 标 ) 用 来 传送 标识 符 [Kindberg et al. 2002a]。 
这 两 种 通道 遇 到 房间 边界 的 材料 时 会 极 大 地 衰减 〈 假 设 门 和 窗 是 关闭 的 )。 

直接 关联 ”最 后 我 们 考虑 的 技术 是 让 人 使 用 物理 机 制 直 接 关 联 两 个 设备 ， 而 不 使 用 发 现 服务 。 
通常 ， 这 种 情况 下 的 设备 只 提供 可 供 一 个 人 或 一 小 部 分 人 选择 的 服务 。 在 下 面 提 到 的 每 种 技术 中 ， 
用 户 都 能 够 使 用 他 们 携带 的 设备 获得 “目标 ”设备 的 网 络 地 址 (例如 蓝牙 或 IP 地 址 )。 

地 址 感知 使 用 一 种 设备 直接 感知 目标 设备 的 网 络 地 址 。 这 可 能 包括 : 读 取 设备 的 象形 文字 ， 
形成 网 络 地 址 编码 ， 或 者 将 一 个 设备 靠近 另 一 个 设备 ， 并 使 用 短程 无 线 通 道 读 取 它 的 地 址 。 这 种 
短程 道道 的 例子 有 近 距离 通信 [www.nfc-forum.org] (一 种 双向 无 线 电 通信 标准 ， 它 拥有 多 个 可 选 
的 较 短 的 作用 范围 ， 但 是 通常 只 能 在 3 厘米 之 内 变化 ) 和 短程 的 红外 线 传 输 。 

物理 触发 器 : 使 用 一 个 物理 触发 器 让 目标 设备 发 送 它 的 地 址 。 例 如 ， 将 一 种 数字 调制 的 激光 
束 〈 另 一 种 物理 受 限 通道 ) 照射 到 目标 设备 上 [Patel and Abowd 2003]， 就 能 将 它 的 地 址 传送 给 目 
标 设备 ， 目 标 设 备用 它 的 地 址 加 以 响应 。 

时 间或 物理 相关 性 : 使 用 时 间 上 或 物理 上 相关 的 触发 器 来 关联 设备 。SWAP-CA 规 范 
[SWAP-CA 2002] 用 于 引入 协议 的 家 庭 环 境内 的 无 线 网 络 ， 它 有 时 也 被 称 为 两 按钮 协议 ， 让 人 将 
两 个 无 线 设 备 关联 起 来 。 每 个 设备 监听 一 个 众所周知 的 组 播 地 址 。 用 户 几乎 同时 按 下 各 自 设 备 上 
的 按钮 ， 同 时 设备 向 组 播 地 址 发 送 它们 的 网 络 地 址 。 由 于 不 可 能 在 同 … 子 网 、 同 -- 时 刻 进 行 该 协 
议 的 下 一 轮 ， 因 此 设备 与 在 按钮 按 下 这 一 小 段 时 间 间 隔 内 到 达 的 任何 地 址 进行 关联 。 有 一 个 有 意 
思 但 不 太 实际 的 两 按钮 协议 的 实现 方法 [Holmquist et al. 2001]， 用 户 一 只 手 握 着 两 个 设备 并 同时 
摇动 它们 。 每 个 设备 有 一 个 加 速 计 以 感知 它 的 运动 状态 。 设 备 记录 摇动 模式 ， 从 中 计算 出 一 个 标 
识 符 ， 并 且 将 标识 符 连 同 它 的 单 播 地 址 组 播 到 一 个 众所周知 组 播 地 址 。 只 有 精确 体验 该 加 速 模式 
的 两 个 设备 一 一 并 在 直接 通信 范围 内 一 一 才 会 识别 出 彼此 的 标识 符 并 由 此 知道 双方 的 地 址 。 


16.2.3 ”小结 和 前 景 


本 节 描 述 了 易 变 系统 组 件 的 关联 问题 ， 并 提出 从 网 络 发 现 到 多 人 监控 技术 等 方法 来 试图 解决 
该 问题 。 移 动 系统 和 无 处 不 在 系统 引发 了 特有 的 难题 ， 因 为 它们 是 与 我 们 日 常 的 、 凌 乱 的 物理 世 
界 空间 集成 的 〈 例 如 家 庭 和 办 公 室 )， 这 使 得 研究 解决 方案 很 困难 。 人 们 在 考虑 一 个 特殊 智能 空间 
内 部 有 什么 和 外 部 有 什么 时 容易 在 头脑 中 有 很 多 的 领域 和 管理 方面 的 考虑 。 边 界 原理 提出 的 解决 
关联 问题 的 方法 需要 在 某 种 用 户 可 以 接受 的 程度 上 匹配 底层 的 物理 空间 。 我 们 看 到 ， 由 于 网 络 发 
现 系统 的 缺陷 ， 通 常 需要 一 定 程度 上 的 人 工 监控 。Cooltown 实 例 研 究 (参见 16.7 节 ) 描述 了 一 种 有 
人 参与 的 模型 。 

在 关联 问题 的 解决 方案 中 ， 由 于 地 球 通常 被 分 成 可 管理 大 小 的 智能 空间 ， 因 此 我 们 很 大 程度 
上 忽略 了 规模 因素 。 但 是 ， 有 一 些 针对 发 现 服务 的 研究 一 一 毕竟 ， 有 些 应 用 可 能 将 整个 地 球 看 作 一 
个 智能 空间 。 例 如 INS/Twine[Balazinska et al, 2002]， 它 将 目录 数据 划分 到 一 系列 对 等 服务 器 上 。 


16.3 互 操作 


我 们 已 经 描述 了 易 变 系统 的 两 个 或 多 个 组 件 关联 的 方式 ， 现 在 讨论 它们 如 何 互 操作 。 组 件 基 
于 它们 中 的 一 个 或 两 个 拥有 的 某 些 属性 或 数据 进行 关联 。 下 面 的 问题 是 ， 它 们 使 用 什么 协议 进行 
通信 ? 在 较 高 层次 上 ， 什 么 样 的 编程 模型 最 适合 它们 之 间 的 交互 ?本 节 将 解决 上 述 问题 。 
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第 4、5 章 描述 了 用 于 互 操作 的 模型 ， 包 括 各 种 形式 的 进程 间 通 信 、 方 法 调用 和 过 程 调用 。 其 
中 一 些 模型 包含 的 隐 含 假设 是 互 操作 组 件 被 设计 为 在 一 个 特定 系统 或 应 用 中 共同 工作 ， 还 有 互 操 
作 组 件 集合 的 改变 要 么 是 长 期 配置 问题 ， 要 么 是 一 个 偶尔 被 处 理 的 运行 时 错误 条 件 。 但 是 那些 假 
设 在 移动 系统 和 无 处 不 在 系统 中 是 不 成 立 的 。 幸 运 的 是 ， 正 如 本 节 我 们 阐述 的 ， 第 4 章 和 第 5 章 中 
介绍 的 互 操作 的 某 些 方法 〈 除 一 些 新 方法 外 ) 非常 适合 那些 易 变 系统 。 

理想 情况 下 ， 移 动 系统 或 无 处 不 在 系统 中 的 组 件 可 以 与 变化 的 服务 类 型 关联 ， 而 不 只 是 与 相 
同类 型 服务 的 不 同 的 实例 集合 关联 。 也 就 是 说 ， 最 好 避免 前 一 节 描 述 的 “失去 机 会 ”问题 。 例 如 ， 
数码 相机 不 能 将 它 的 图 像 发 送 到 一 个 数字 相框 ， 因 为 它 不 能 与 相框 的 图 像 使 用 服务 互 操作 。 

从 另 一 个 角度 看 ， 无 处 不 在 计算 和 移动 计算 的 一 个 目标 是 组 件 应 该 有 机 会 与 功能 匹配 组 件 互 
操作 ， 即 使 后 者 处 于 一 个 不 同 于 最 初 开发 它 的 智能 空间 中 。 这 需要 软件 开发 者 之 间 具 有 全 局 协定 。 
给 定 达成 协定 所 需 的 努力 ， 最 好 能 将 需要 达成 一 致 的 内 容 减 到 最 少 。 

易 变 互 操作 的 最 主要 的 困难 是 软件 接口 的 不 兼容 。 例 如 ， 如 果 数 码 相 机 希望 调用 操作 
pushimage， 但 是 在 数字 相框 接口 中 没有 这 样 的 操作 ， 那 么 它们 就 不 能 互 操作 一至 少 ， 不 能 直接 
互 操作 。 

该 问题 有 两 种 解决 方法 。 第 一 种 方法 是 允许 接口 异 构 ， 但 是 要 适应 彼此 的 接口 。 例 如 ， 如 果 
数字 相框 的 sendImage 操 作 与 pushimage 操 作 有 相同 的 参数 和 语义 ， 那 么 就 能 构造 一 个 组 件 作为 数 
字 相 框 的 代理 ， 将 相机 的 pushImage 调 用 转换 成 相框 的 sendImage 调 用 。 

然而 ， 这 种 方法 很 难 实现 。 通 常 ， 操 作 的 语义 可 能 随 语法 而 变化 ， 并 且 解 决 语义 不 兼容 性 一 
般 是 很 困难 的 并 且 容 易 造 成 错误 。 该 问题 的 规模 是 ， 如 果 有 N 个 接口 ， 则 潜在 的 适配器 要 有 个 ， 
并 且 随 时 间 的 增长 可 能 需要 创建 更 多 的 接口 。 此 外 ， 在 易 变 系 统 中 组 件 重新 关联 时 ， 存 在 它们 如 
何 获得 合适 的 接口 适配器 的 问题 。 组 件 (或 拥有 它们 的 设备 ) 不 能 预 装载 所 有 可 能 的 ?个 适配器 ， 
所 以 要 在 运行 时 确定 并 装载 正确 的 适配器 。 尽 管 有 上 述 困难 ， 但 仍然 有 关于 如 何在 实际 中 解决 接 
口 适 配 问 题 的 研究 。 例 如 ，Ponnekanti 和 Fox[2004] 。 

另 一 种 关于 互 操 作 的 方法 是 限制 接口 ， 使 其 在 语法 上 尽 可 能 像 一 种 组 件 类 型 一 样 一 致 。 这 听 起 
来 可 能 不 现实 ， 但 实际 上 它 已 经 广泛 、 成 功 地 应 用 了 几 十 年 了 。 最 简单 的 例子 是 UNIX 中 的 管道 。 管 
道 只 有 两 个 操作 ，read 和 write， 用 于 管道 两 端 组 件 (进程 ) 间 的 数据 传送 。 多 年 来 ，UNIX 程 序 员 创 
建 了 许多 程序 能 从 管道 中 读数 据 / 或 向 管道 中 写 数据 ， 或 二 者 兼 而 有 之 。 因 为 这 些 程序 使 用 标准 接口 
和 通用 的 文本 处 理 功能 ， 所 以 其 中 任何 一 个 程序 的 输出 都 能 作为 另 一 个 程序 的 输入 ， 用 户 和 程序 员 
发 现 了 许多 有 用 的 方法 用 于 合并 程序 一 一 那些 可 独立 开发 的 、 不 涉及 其 他 程序 的 特定 功能 的 程序 。 

一 个 已 经 比较 成 功 的 、 通 过 一 个 固定 接口 达到 高 度 互 操作 的 例子 是 Web。HTTP 规 约 ( 见 4.4 节 ) 
定义 的 方法 集合 规模 很 小 并 且 很 固定 。 通 常 ，Web 客 户 只 使 用 GET 和 POST 操作 访问 Web 服 务 器 . 
使 用 固定 接口 的 好 处 是 能 通过 一 个 相对 稳定 的 软件 (通常 是 浏览 器 ) 与 服务 集合 互 操作 。 服 务 之 
间 变 化 的 是 交换 的 内 容 的 类 型 和 数值 ， 以 及 服务 器 的 处 理 语义 。 但 是 每 个 交互 依然 是 一 个 GET 或 
POST 操作 。 


16.3.1 易 变 系统 的 面向 数据 编程 


我 们 称 使 用 一 个 不 变 的 服务 接口 〈 如 UNIX 管 道 和 Web) 的 系统 为 面向 数据 (或 面向 内 容 ) 的 
系统 。 选 择 这 个 术语 是 为 了 与 面向 对 象 区 别 开 来 。 面 向 数据 系统 中 的 组 件 可 以 被 知道 固定 接口 的 
其 他 组 件 调用 。 另 一 方面 ， 对 象 或 过 程 的 集合 可 能 有 -- 个 变化 多 样 的 接口 集合 ， 并 且 只 能 被 那些 
知道 它 的 特定 接口 的 组 件 调用 。 分 布 和 开发 一 个 不 确定 的 特殊 接口 定义 比 发 布 和 使 用 一 个 接口 规 
约 〈 比 如 HTTP 规 约 ) 更 困难 。 这 就 解释 了 为 什么 我 们 熟知 的 广泛 使 用 的 异 构 分 布 式 系统 是 Web， 
而 不 是 类 似 的 范围 有 限 的 ， 比 方 说 ，CORBA 对 象 集合 。 
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但 是 要 在 面向 数据 系统 的 灵活 性 与 健壮 性 之 间 做 出 权衡 。 两 个 组 件 的 互 操 作 不 总 是 有 意义 的 ， 
并 且 很 难 用 程序 核查 兼容 性 。 在 面向 对 象 或 面向 过 程 系统 中 ， 程 序 至 少 能 够 核查 它们 的 特有 的 接 
口 签名 匹配 。 但 是 面向 数据 组 件 只 能 通过 验证 发 送 给 它 的 数据 类 型 来 增强 兼容 性 。 这 种 验证 要 么 
通过 作为 元 数据 提供 的 〈 例 如 Web 内 容 的 MIME 类 型 ) 标准 数据 类 型 描述 符 ， 要 么 通过 检查 传递 给 
它 的 数据 值 〈 例 如 ，JPEG 类 型 的 数据 有 一 个 可 识别 的 信息 头 ) 来 完成 。 

我 们 现在 分 析 几 种 编程 模型 ， 由 于 它们 具有 面向 数据 互 操作 特性 ， 所 以 适用 于 易 变 系统 。 首 
先 介绍 用 于 间接 关联 组 件 间 互 操作 的 两 种 模型 :事件 系统 和 元 组 空间 。 之 后 我 们 将 描述 用 于 直接 
关联 的 设备 间 互 操作 的 两 种 设计 : JetSend 和 Speakeasy 。 

事件 系统 ”我们 在 5.4 节 中 介绍 了 事件 系统 [Bates et al.1996]。 事 件 系 统 提供 事件 服务 的 实例 。 
每 个 系统 提供 一 个 固定 的 、 通 用 的 接口 ， 名 为 发 布 者 的 组 件 通过 该 接口 发 布 称 为 事件 的 结构 化 数 
据 ， 同 时 ， 称 为 订阅 者 的 组 件 接收 事件 。 每 个 事件 服务 与 某 个 物理 的 或 逻辑 的 事件 传送 范围 相关 
联 。 订 阅 者 只 接收 (“处 理 ”") 这 样 的 事件 ，(1) 在 同一 个 事件 服务 中 发 布 的 ，(2) 匹配 它们 对 所 
感 兴趣 事件 的 注册 说 明 。 

对 于 发 布 和 处 理 组 件 在 易 变 系统 中 或 在 易 变 系统 间 移动 时 所 经 历 的 变化 ， 事 件 是 一 个 很 自然 
的 编程 范 型 。 事 件 可 以 被 组 织 以 说 明 事 情 的 新 状态 ， 比 如 ， 设 备 位 置 的 改变 。 最 近 一 个 用 于 无 处 
不 在 计算 的 使 用 事件 的 例子 系统 是 one.world[Grimm 20041。 但 是 事件 在 开发 的 早期 就 用 于 无 处 不 
在 系统 了 。 在 Active Badge 系 统 [Harter and Hopper 1994] 中 ， 应 用 可 以 订阅 用 户 移动 时 发 生 的 位 置 
改变 事件 。 位 置 事件 也 提出 了 检测 同时 或 相 邻 发 生 的 事件 (也 称 为 合成 事件 ) 模型 的 问题 。 例 如 ， 
考虑 检测 两 个 用 户 相 邻 时 的 定位 问题 ， 所 知 的 仅 是 单个 用 户 何 时 进入 或 离开 一 个 特定 位 置 。 位 置 
系统 并 不 亲自 检测 这 些 事件 : 有 必要 制定 规则 ， 从 基本 事件 (比如 “到 达 (用 户 ， 位 置 ， 时 间 )” 
和 “离开 (用户 , 位 置 ， 时间)”) 的 角度 来 说 明 合成 事件 (比如 协同 定位 ) 何 时 发 生 。 

尽管 已 给 定 事件 的 发 布 、 订 阅 和 处 理 接口 (事件 系统 之 间 的 变化 相对 很 小 )， 但 是 发 布 者 和 订 
阅 者 只 有 在 对 使 用 的 事件 服务 (可 能 有 许多 实例 ) 和 事件 的 类 型 、 属 性 (它们 的 语法 和 语义 ) 达 
成 一 致 时 ， 才 能 正确 地 进行 互 操作 。 因 此 ， 事 件 系 统 转换 了 而 不 是 解决 了 无 处 不 在 互 操作 问题 。 
对 于 给 定 的 组 件 ， 要 在 种 类 繁多 的 智能 空间 中 实现 互 操作 ， 需 要 将 事件 类 型 标准 化 ， 并 且 理 想 中 
的 事件 应 该 用 一 种 独立 于 编程 语言 的 标记 语言 (比如 XML) 描述 。 

另 一 方面 ， 事 件 产生 者 和 消费 者 不 需要 识别 彼此 。 这 在 易 变 系 统 中 是 一 个 优势 ， 在 读 系 统 中 
跟踪 其 他 组 件 的 位 置 是 很 困难 的 。 两 个 组 件 通过 发 布 和 订阅 匹配 的 事件 ， 以 及 通过 对 事件 传递 范 
转达 成 一 致 来 进行 通信 一 一 换 句 话 说 ， 它 们 间接 关联 。 

在 移动 系统 和 无 处 不 在 系统 中 ， 事 件 传递 范围 本 身 就 是 一 个 有 趣 的 话题 。 随 着 服务 发 现 的 应 
用 ， 出 现 了 事件 服务 的 范围 如 何 与 智能 空间 的 物理 范围 联系 的 问题 。 该 问题 可 参见 习题 16.7。 

元 组 空间 同事 件 系统 类 似 ， 元 组 空间 也 是 一 个 成 熟 的 编程 范 型 ， 而 且 它 在 易 变 系统 中 已 得 到 
应 用 。 组 件 使 用 一 个 固定 的 、 通 用 的 接口 来 增加 或 检索 元 组 空间 中 称 为 元 组 的 结构 化 数据 ( 见 
18.2.1 节 )。 元 组 空间 系统 允许 交换 应 用 特定 的 元 组 ， 并 且 关 联 和 互 操作 的 基础 是 组 件 对 元 组 结构 
和 元 组 所 包含 数值 的 约定 。 

例如 ， 数 码 相机 可 以 发 现 本 地 智能 空间 (如 一 个 宾馆 房间 ) 的 元 组 空间 ， 并 且 使 用 元 组 比如 ; 

<'The leaning tower', ‘image/jpeg',<jpeg data>> 

将 它 的 图 像 放 到 元 组 空间 中 。 

相机 软件 的 设计 者 有 一 个 用 于 将 图 像 以 一 定格 式 放 置 其 中 的 元 组 空间 的 模型 ， 而 没有 那些 图 
像 的 特殊 处 理 模型 。 

相应 的 ， 图 像 使 用 设备 《比如 数字 相框 ) 可 以 通过 编程 发 现 它 的 本 地 元 组 空间 ， 并 试图 从 带 
有 如 下 模板 格式 的 元 组 中 检索 ， 其 中 “*” 代 表 通 配 符 : 
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<*, image/jpeg', *> 

相机 的 元 组 匹配 相框 要 求 的 模板 一 一 它 有 三 个 域 , 并 且 第 二 个 域 包 括 要 求 的 MIME 类 型 字符 串 。 
相框 将 检索 相机 的 元 组 并 且 能 显示 图 像 和 相关 的 标题 。 另 一 个 例子 是 用 户 可 以 激活 一 个 打印 机 来 
打印 元 组 空间 的 图 像 。 

有 几 种 特别 为 移动 系统 和 无 处 不 在 系统 开发 的 基于 元 组 空间 的 编程 系统 。 尽 管 名 为 事件 堆 
[Johanson and Fox 2004],， 但 它 是 为 称 为 Room 的 一 类 智能 空间 开发 的 基于 元 组 的 编程 系统 。 
iRoom 中 包括 多 个 大 显示 器 和 其 他 基础 设备 。 对 于 每 个 Room， 有 一 个 对 应 的 事件 堆 ， 在 该 事件 堆 
中 ，iRoom 中 的 组 件 (包括 带 入 房间 内 的 移动 设备 上 的 组 件 ) 可 以 发 现 或 配置 使 用 。 组 件 通过 事 
件 堆 交换 元 组 来 实现 互 操作 ， 并 且 事 件 堆 提 供 一 定 程度 的 间接 关联 以 便于 设备 间 的 动态 关联 。 一 
个 例子 是 ， 放 在 迟 oom 中 的 一 个 远程 控制 设备 可 以 与 不 同 的 显示 器 动态 地 关联 。 例 如 ， 一 段 视频 
可 以 在 几 个 大 显示 器 中 的 任何 一 个 上 显示 。 当 用 户 按 下 远程 控制 的 “暂停 ”按钮 时 ， 控 制 器 在 事 
件 堆 中 放置 一 个 “暂停 ”元 组 。 显 示 视 频 的 设备 编程 来 查找 并 检索 “暂停 ”元 组 ， 进 而 加 以 响应 。 
远程 控制 器 还 可 以 以 完全 相同 的 方式 与 一 个 音频 输出 设备 一 起 工作 ， 不 需要 重新 编程 。 

LIME 系 统 (移动 环境 中 的 Linda) [Murphy et al.2001] 是 作为 移动 系统 的 编程 模型 而 开发 的 。 
在 LIME 中 ， 参 与 的 设备 拥有 元 组 空间 ， 并 且 与 基础 设施 无 关 。 每 个 设备 拥有 它 自 己 的 元 组 空间 。 
当 LIME 拥 有 的 设备 关联 时 ，LIHME 共 享 各 自 的 元 组 空间 ， 对 共享 元 组 空间 的 聚合 操作 形成 了 元 组 
集合 的 并 集 。 例 如 ， 这 可 用 于 服务 发 现 。 请 求 服务 的 组 件 能 够 编程 得 到 描述 它 所 需 服务 实例 的 元 
组 ,实现 相应 服务 的 设备 能 够 编程 在 它 的 本 地 元 组 空间 中 放置 描述 性 元 组 。 当 二 者 连接 时 ，LIME 
将 建立 匹配 ， 并 且 为 潜在 客户 提供 服务 的 详细 资料 。 

虽然 LIME 模 型 易于 描述 ， 但 是 面 对 任意 的 连接 和 断 链 实现 合适 的 一 致 性 语义 是 很 困难 的 。 
LIME 的 实现 者 做 出 了 有 争议 的 、 不 现实 的 假设 来 简化 他 们 的 设计 ， 包 括 组 播 连通 性 在 元 组 空间 被 
聚集 的 设备 间 保 持 一 致 ， 到 聚集 集合 的 连接 和 从 聚集 集合 的 断 开 是 串 行 化 的 、 有 序 的 。 

事件 系统 和 元 组 空间 的 比较 。 如 果 我 们 把 “事件 ”看 作 “ 元 组 "， 把 “兴趣 的 说 明 ” 看 作 “ 元 
组 匹配 模板 "， 那 么 两 种 互 操作 模型 是 一 致 的 。 两 者 都 提供 一 定 程度 的 间接 性 ， 这 对 易 变 系统 是 有 
用 的 ， 因 为 默认 情况 下 产生 或 使 用 事件 或 元 组 的 组 件 的 标识 符 对 彼此 是 透明 的 。 这 样 组 件 集合 就 
可 以 透明 地 改变 了 。 然 而 ， 也 有 重要 的 区 别 。 第 一 ， 事 件 模型 是 绝对 异步 的 ， 而 元 组 空间 系统 支 
持 同 步 操作 以 检索 匹配 的 元 组 。 同 步 操 作 的 编程 比较 容易 。 另 一 方面 ， 期 望 某 个 组 件 (例如 ， 动 
态 遇 到 的 图 像 产生 设备 ) 最 终 会 提供 匹配 的 元 组 是 错误 的 想法 ， 因 为 断 链 在 任何 时 候 都 可 能 
发 生 。 

第 二 个 重要 的 区 别 是 事件 和 元 组 的 生命 期 。 默 认 情况 下 ， 事 件 在 它 在 发 布 者 和 订阅 者 间 的 伟 
播 后 消亡 。 然 而 ， 元 组 空间 的 元 组 可 能 比 放 置 它 的 组 件 和 任何 读 取 (除了 破坏 性 的 使 用 ) 它 的 组 
件 的 生命 期 长 。 这 种 持久 性 是 一 种 优点 。 例 如 ， 用 户 相机 的 电池 可 能 在 他 将 图 像 上 传 到 宾馆 房间 
的 元 组 空间 后 ， 但 在 将 它们 分 配给 另 一 个 设备 前 用 完 。 同 时 ， 持 久 性 也 可 能 是 一 种 缺点 ， 如 果 一 
组 不 可 控制 的 设备 将 元 组 放 到 空间 中 ， 但 因为 使 用 它们 的 组 件 已 经 断 链 而 不 会 被 使 用 ， 这 将 会 产 
生 什么 样 的 结果 呢 ? 这 种 空间 中 的 元 组 集合 将 变 得 不 可 控制 。 没 有 易 变 组 件 集合 的 全 局 知识 ， 不 
可 能 确定 哪些 元 组 是 无 用 的 。 

事件 堆 的 设计 者 认识 到 了 认 oom 的 持久 性 问题 。 他 们 选择 让 元 组 在 事件 堆 中 待 一 段 时 间 后 到 期 
(也 就 是 垃圾 回收 )， 特 定时 间 通 常 与 人 的 交互 时 间 间 隔 一 致 。 例 如 ， 当 用 户 第 二 天 试图 播放 视频 
时 ， 该 机 制 阻止 了 一 个 来 自 远程 控制 器 的 未 使 用 的 “暂停 ”事件 。 

设备 的 直接 互 操作 前 面 的 编程 模型 用 于 间接 关联 组 件 间 的 互 操 作 。JetSend 和 Speakeasy 是 用 
于 由 人 为 因素 导致 直接 关联 的 两 个 设备 间 的 互 操作 的 系统 。 

JetSend: JetSend 协 议 [williams 1998] 用 于 应 用 (比如 照相 机 、 打 印 机 、 扫 描 仪 和 电视 ) 间 的 
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交互 。JetSend 明 确 地 设计 为 面向 数据 的 ， 这 样 应 用 就 不 需要 根据 将 要 交互 的 特定 设备 装载 特殊 的 
驱动 程序 了 。 例 如 ，JetSend 相 机 能 发 送 图 像 到 JetSend 图 像 使 用 设备 ， 比 如 打印 机 或 电视 ， 而 不 用 
考虑 使 用 者 的 特殊 功能 。 相 连接 的 JetSend 设 备 间 的 主要 通用 操作 是 同步 一 方 呈现 给 另 一 方 的 状态 。 
这 意味 着 以 设备 协商 的 格式 传送 状态 。 例 如 ， 图 像 产生 设备 (比如 扫描 仪 ) 可 通用 使 用 来 自 JPEG 
格式 的 产生 者 的 图 像 与 图 像 使 用 设备 〈 比 如 数字 相框 ) 同步 。JPEG 格 式 是 从 产生 者 可 提供 的 几 种 
图 像 格式 中 挑选 出 来 的 。 同 一 个 扫描 仪 可 能 在 使 用 一 种 不 同 的 图 像 格 式 时 与 一 个 电视 同步 。 

JetSend 的 设计 者 认识 到 ， 他 们 的 同步 操作 只 对 异 构 设 备 间 的 简单 操作 (数据 传递 ) 有 利 。 它 
避 开 了 如 何在 特定 设备 间 达 到 更 复杂 的 交互 的 问题 。 例 如 ， 在 传递 要 打印 的 图 像 时 ， 如 何在 单 色 
和 彩色 间 做 出 选择 ? 假定 源 设 备 没 有 特定 打印 机 的 驱动 程序 。 并 且 对 于 该 设备 不 可 能 编程 得 到 它 
可 能 要 连接 的 任意 设备 (包括 未 发 明 的 设备 ) 的 语义 的 先 验 知识 。JetSend 对 该 问题 的 回答 是 使 用 
目标 设备 指定 的 、 在 源 设备 (比方 说 ， 相 机 ) 上 显示 的 用 户 界面 ， 通 过 人 为 选择 目标 设备 (比方 
说 ， 打 印 机 ) 的 特定 功能 来 实现 。 这 就 是 说 ， 用 户 通过 他 们 的 浏览 器 与 高 度 异 构 的 服务 交互 时 ， 
在 Web 上 如 何 发 生 互 操作 :每 个 服务 将 它 的 接口 以 标记 吐 本 的 形式 发 送 给 浏览 器 ， 浏 览 器 以 通用 
窗口 小 部 件 集合 的 形式 将 服务 呈现 给 用 户 ， 而 不 需要 关于 服务 特有 语义 的 知识 。Web 服 务 ( 见 第 
19 章 ) 试图 以 程序 代替 人 (其 至 在 一 些 复杂 的 交互 中 也 是 如 此 )。 

Speakeasy: Speakeasy 项 目 [Edwards et al.2002] 采 用 了 与 JetSend 相 同 的 设计 原理 来 实现 设备 
间 互 操作 ， 但 有 一 点 不 同 : 它 使 用 了 移动 代码 。 使 用 移动 代码 有 两 个 原因 。 第 一 ， 设 备 (比如 打 
印 机 ) 能 够 将 任何 用 户 接口 发 送 给 另 一 个 设备 〈 比 如 PDA) 的 用 户 。 用 户 接口 的 移动 代码 的 实现 
能 够 执行 本 地 处 理 〈 比 如 输入 验证 )， 并 且 它 能 够 提供 在 用 户 界 面 上 不 可 用 的 交互 模式 ， 该 模式 必 
须要 在 标记 语言 中 说 明 。 然 而 ， 与 该 优点 相对 的 是 ， 必 须要 设置 执行 移动 代码 的 安全 性 ， 移 动 代 
码 需要 复杂 的 保护 机 制 来 预防 特洛伊 森马， 并且 为 了 处 理 有 更 多 限制 的 标记 脚本 ， 要 有 在 虚拟 机 
上 运行 移动 代码 的 许可 。 

在 设备 互 操作 中 使 用 移动 代码 的 第 二 个 动机 是 优化 数据 传送 。 虽 然 Speakeasy 的 移动 代码 必须 
在 主机 设备 的 API 限 制 内 运作 ， 但 它 可 以 与 发 送 它 的 远程 设备 进行 任意 交互 。 因 此 ， 移 动 代 码 能 够 
为 传送 内 容 (内 容 类 型 是 特定 的 ) 实现 优化 的 协议 一 一 例如 ， 视频 可 能 在 传送 前 被 压缩 。 比 较 而 言 ， 
JetSend 只 能 使 用 预定 义 的 内 容 传 送 协 议 。 


16.3.2 间接 关联 和 软 状态 


当 服 务 的 资源 能 提供 足够 高 的 可 用 性 (比如 基础 设施 服务 ) 时 ， 组 件 与 它 的 关联 就 有 意义 了 。 
也 就 是 说 ,组件 可 以 获得 服务 的 地 址 。 当 组 件 随后 使 用 该 地 址 与 服务 互 操 作 时 (比方 说 ， 关 联 后 
10 分 钟 )， 它 们 仍然 可 以 希望 它 是 可 达 的 并 且 是 可 响应 的 。 然 而 ， 通 常情 况 下 ， 系 统 易 变 性 使 得 依 
赖 某 特定 组 件 提供 的 服务 是 不 可 能 的 ， 因 为 该 组 件 可 以 在 任何 时 候 离开 或 失效 。 从 这 个 区 别 中 得 
到 的 教训 是 ， 有 必要 告诉 程序 员 哪 些 服务 是 高 可 用 的 ， 哪 些 服务 是 易 变 的 。 此 外 ， 为 了 处 理 易 变 
性 ， 需 要 给 他 们 提供 不 依赖 特定 组 件 的 编程 技术 。 

以 上 几 种 面向 数据 编程 系统 的 例子 涉及 间接 关联 和 匿名 关联 。 特 别 是 ， 通 过 事件 系统 或 元 组 
空间 互 操作 的 组 件 不 需要 知道 彼此 的 名 字 或 地 址 。 只 要 事件 服务 或 元 组 空间 存在 ， 单 个 组 件 可 以 
进入 、 离 开 ， 或 被 替代 。 这 需要 小 心 维护 整个 系统 的 正确 操作 ， 但 至 少 组 件 的 编写 者 不 需要 管理 
与 经 常 消失 节点 的 单独 关联 。 

使 用 间接 关联 的 客户 一 服务 器 系统 的 一 个 例子 是 意图 名 字 系 统 (Intentional Name System, INS) 
[Adjie-Winoto et al.1999]。 组 件 发 起 请 求 ， 说 明 所 需 服 务 的 属性 、 要 调用 的 操作 和 参数 。 组 件 不 需 
要 说 明 所 需 服务 实例 的 名 字 或 地 址 ， 因 为 INS 自 动 将 操作 和 参数 路 由 到 一 个 合适 的 一 一 比如 ， 本 地 
的 一 一 匹配 所 需 属 性 的 服务 实例 。 因 为 指向 相同 属性 说 明 的 连续 操作 可 能 由 不 同 的 服务 器 组 件 处 理 ， 





所 以 INS 假 设 那些 服务 器 是 无 状态 的 ， 或 者 使 用 第 15 章 描述 的 某 种 技术 复制 它们 的 状态 。 

这 导致 了 一 个 常见 问题 : 在 易 变 系统 中 程序 员 如 何 设法 管理 状态 ? 第 15 章 的 复制 技术 允许 资 
源 的 元 余 , 在 易 变 系统 中 资源 可 能 不 可 用 至 少 , 不 是 持续 可 用 的 。 复制 技术 也 导致 了 额外 通信 ， 
从 而 导致 相关 的 能 量 消耗 和 性 能 降低 ， 所 以 额外 通信 可 能 是 不 实际 的 。 

Lamport 的 “Part-time Parliament” 算 法 [1998] 提 供 了 一 种 忽略 易 变性 而 达到 分 布 式 一 致 的 方 
法 一 一 假定 参与 的 进程 有 规律 地 、 独 立地 消失 和 重新 出 现 。 不 过 ， 该 算法 依赖 于 每 个 进程 访问 自 
己 的 持久 性 存储 。 

相 比 之 下 ， 一 些 实现 使 用 软 状态 来 提供 不 太 严格 但 有 用 的 一 致 性 保证 ， 甚 至 在 没有 持续 可 用 
的 持久 性 存储 的 情况 下 。Ciark[Clark 1998] 引 入 了 软 状 态 的 概念 来 作为 一 种 管理 因特网 路 由 的 配置 
方式 ， 而 且 不 考虑 故障 情况 。 路 由 器 集合 是 一 个 易 变 系统 ， 即 使 系统 中 没有 路 由 器 能 够 保证 总 是 
可 用 ,但 是 系统 也 必须 能 持续 运作 。 软 状态 的 定义 一 直 处 于 争论 之 中 [Raman and McCanne 1999]， 
但 从 广义 上 讲 ， 它 是 提供 提示 的 数据 (也 就 是 说 ， 它 提供 的 数据 可 能 是 过 时 的 ， 并 且 从 严格 音义 
上 讲 不 应 该 被 依赖 )， 而 且 ， 最 重要 的 是 ， 软 状态 的 源 会 自动 更 新 它 。 一 些 发 现 系统 ( 见 16.2 节 ) 
给 出 了 软 状态 在 管理 服务 注册 项 集合 上 的 应 用 。 第 一 ， 项 只 是 提示 一 一 可 能 有 服务 的 一 个 已 经 消失 
的 项 。 第 二 ， 项 通过 服务 的 组 播 自动 地 更 新 一 -增加 新 项 和 保持 现 有 的 项 。 


16.3.3 小 结 和 前 晤 


本 节 描 述 了 易 变 系统 组 件 间 的 互 操作 模型 。 如 果 每 个 智能 空间 都 开发 它 自己 的 编程 接口 ， 那 
么 移动 性 的 好 处 就 无 法 体现 。 如 果 一 个 组 件 不 是 源 于 给 定 的 智能 空间 而 是 移动 到 该 空间 的 ， 那 么 
它 与 智能 空间 内 服务 互 操作 的 唯一 方法 将 是 使 它 的 接口 自发 地 适应 新 环境 的 接口 。 实 现 这 个 目标 
需要 非常 复杂 的 运行 支持 ， 除 实验 中 已 有 几 个 例子 外 ， 这 仍 是 不 现实 的 。 

通过 上 面 几 个 例子 的 描述 可 知 ， 另 一 种 解决 方法 是 使 用 面向 数据 编程 。 一 方面 ，Web 显 示 了 
该 范 型 的 可 扩展 性 和 极 大 的 可 应 用 性 。 另 一 方面 ， 没 有 “尚方 宝剑 ”能 够 解决 易 变 系统 互 操作 的 
所 有 问题 。 面 向 数据 系统 是 在 接口 的 函数 集合 上 达成 一 致 而 不 是 在 作为 参数 传递 给 那些 函数 的 数 
据 的 类 型 上 达成 一 致 。 尽 管 XML ( 见 4.3.3 节 ) 使 得 数据 能 够 “自我 描述 "， 所 以 有 时 用 作 一 种 便于 
数据 互 操作 的 方式 ,但 是 实际 上 它 仅 提 供 了 表示 结构 和 词汇 的 框架 。XML 本 身 对 什么 是 语义 问题 
没有 贡献 。 有些 作者 认为 “语义 Web”[www.w3.org XX] 将 在 未 来 的 解决 方案 中 占据 一 席 之 地 。 


16.4 感知 和 上 下 文敏 感 


前 面 几 节 重点 介绍 了 移动 系统 和 普 适 系统 的 易 变性 方面 。 本 节 将 着 重 介绍 系统 的 其 他 特征 ， 
与 物理 世界 集成 的 特征 。 特 别 地 ， 将 会 考虑 用 于 处 理 从 传感器 收集 的 数据 的 体系 结构 和 对 (感知 
的 ) 物理 环境 作出 响应 的 上 下 文敏 感 系统 。 我 们 还 将 详细 论述 位 置 感知 一 -一 个 重要 的 物理 参数 。 

因为 我 们 考虑 的 用 户 和 设备 是 经 常 移动 的 ， 并 且 物 理 世 界 为 跨越 时 空 的 大 量 交互 提供 了 不 同 的 
机 会 ， 所 以 它们 的 物理 环境 通常 是 系统 行为 的 决定 性 因素 。Active Badge 系 统 提供 了 -一 个 例子 ; 在 
移动 电话 出 现 之 前 ， 用 户 的 位 置 也 就 是 他 们 穿戴 的 标记 的 位 置 ) 用 于 识别 他 们 打出 的 电话 应 该 路 
由 到 哪个 电话 机 上 (Want et al. 1992) 。 汽 车 的 上 下 文敏 感 条 车 系统 应 该 能 根据 路 面 是 否 履 盖 着 冰 
来 调整 它 的 行为 。 个 人 设备 应 该 能 够 自动 利用 在 它 的 环境 内 探测 到 的 资源 ， 比 如 一 个 大 显示 器 。 

实体 (人 、 位 置 或 物体 ， 不 论 是 否 是 电子 的 ) 的 上 下 文 是 与 系统 行为 相关 的 物理 环境 的 一 个 
方面 。 它 包括 相当 简单 的 值 ， 比 如 位 置 、 时 间 、 温 度 ， 关 联 的 用 户 的 标识 符 (例如 ， 操 作 设备 的 
用 户 或 附近 的 用 户 )， 物 品 的 存在 和 状态 (比如 另 一 个 设备 ， 如 显示 器 ) 。 可 以 通过 规则 编撰 和 作 
用 于 上 下 文 ， 比 如 “如 果 用 户 是 Fred 并 且 他 在 IQ 实 验 室 的 会 议 室 ， 同 时 如 果 在 他 1 米 范围 内 有 一 个 
显示 器 ， 那 么 就 将 设备 上 的 信息 显示 在 显示 器 上 一 除非 有 非 1Q 实 验 室 的 员工 在 场 "。 上 下 文 也 包 
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括 比较 复杂 的 属性 ， 比 如 用 户 的 和 活动。 例如， 上 下 文敏 感 手机 决定 是 否 要 响 铃 时 ， 需 要 以 下 问题 
的 答案 : 用 户 正在 电影 院 看 电影 ， 还 是 正在 放映 前 与 他 们 的 朋友 聊天 ? 
16.4.1 传感器 

上 下 文 数值 的 确定 依赖 于 传感器 ， 传 感 器 是 用 来 测量 上 下 文 数值 的 硬件 和 /或 软件 的 结合 物 。 
下 面 给 出 一 些 例子 : 

位 置 、 速 度 和 方位 ; 卫星 导航 (例如 ，GPS) 装置 提供 全 球 坐 标 和 速度 ， 加 速 计 用 来 监测 运 
动 ， 磁力 计 和 陀螺 仪 提 供 方 位 数据 。 

周围 环境 : 温度 计 ， 测 量 光线 强度 的 传感器 ， 感 受 声音 强度 的 麦克 风 。 

存在 : 用 来 测量 物理 负载 的 传感器 ， 例 如 探测 到 人 坐 在 椅子 上 或 走 过 某 块 地 板 ， 读 取 人 靠近 它 
们 的 标签 的 电子 标识 符 的 设备 ， 比 如 RFID (无 线 射频 识别 ) 阅读 器 [Want 2004]， 或 红外 线 阅读 器 
(比如 那些 用 于 感知 Active Badge 的 )， 用 于 检测 计算 机 的 按钮 按 下 的 软件 。 

以 上 分 类 只 有 作为 用 于 某 种 目的 的 传感器 的 例子 时 才 有 意义 。 一 个 给 定 的 传感器 可 能 有 多 种 
用 途 。 例 如 ， 在 会 议 室 用 麦克 风 可 监测 人 的 存在 ， 可 通过 在 已 知 地 点 检测 对 象 的 主动 标记 来 确定 
它 的 位 置 。 

传感器 的 一 个 很 重要 的 方面 是 它 的 误差 模型 。 任 何 传感器 产生 的 数值 都 带 有 一 定 程度 的 误差 。 
有 些 传感器 (例如 温度 计 ) 可 以 通过 精密 的 制造 将 误差 控制 在 一 个 已 知 的 可 容忍 的 (如 Gaussian 分 
布 ) 范围 内 。 其 他 传感器 ， 比 如 卫星 导航 装置 ， 有 一 个 依赖 于 当时 的 环境 的 复杂 的 误差 模型 。 第 
一 ， 在 一 定 环境 下 ， 它 们 可 能 根本 无 法 产生 数值 。 卫 星 导航 装置 依赖 于 当时 可 见 的 卫星 集合 。 它 
们 在 建筑 物 内 可 能 根本 无 法 工作 ， 建 筑 物 的 墙壁 可 以 大 大 削弱 卫星 信号 。 第 二 ， 装 置 位 置 的 计算 
依赖 于 一 些 动态 因素 ， 包 括 卫星 位 置 、 附 近 的 障碍 物 和 电离 层 。 即 使 在 建筑 物 外 ， 在 不 同 的 时 间 ， 
装置 通常 会 为 同一 位 置 给 出 不 同 的 数值 ， 这 些 数值 只 是 当前 精确 度 的 一 个 最 好 估计 。 在 这 项 或 反 
射 无 线 电信 和 号 的 建筑 物 或 其 他 高 物体 的 附近 ， 只 有 当 可 见 卫星 足够 多 时 才能 产生 一 个 读数 ， 但 是 
精确 度 可 能 很 低 甚 至 读数 可 能 是 完全 虚假 的 。 

用 来 陈述 传感器 的 错误 行为 的 一 个 有 用 的 方法 是 引用 精确 度 ， 说 明达 到 度量 的 一 个 制定 的 比 
例 。 例 如 ，“ 在 给 定 区 域内 ， 在 90% 的 测量 中 ， 卫 星 导航 装置 的 精确 度 在 10 米 以 内 ”"。 另 一 种 方法 
是 用 置信 值 进行 特定 测量 一 一 依据 测量 中 遇 到 的 不 确定 性 选择 的 一 个 数值 (通常 在 0 一 1 间 )。 
16.4.2 感知 体系 结构 


Salber et al. [1999] 认 为 在 设计 上 下 文敏 感 系统 中 有 四 个 功能 性 方面 的 挑战 : 

异 质 传感器 的 集成 ”上下文 敏感 计算 需要 的 一 些 传感器 的 结构 和 编程 接口 是 不 同 的 。 可 能 需要 
特殊 的 知识 才能 在 感 兴趣 的 物理 场景 中 正确 的 部 署 它们 (例如 ， 要 测量 用 户 的 腹 膊 窦 势 ， 加 速 计 
应 该 放 在 哪 ?)， 并 且 可 能 产生 系统 问题 ， 比 如 标准 操作 系统 的 驱动 程序 的 可 用 性 。 

传感器 数据 的 提取 ”应 用 程序 要 求 对 上 下 文 属性 进行 抽象 ， 以 避免 涉及 单个 传感器 的 特殊 点 。 
但 问题 是 ， 即 使 用 于 相似 用 途 的 传感器 也 会 提供 不 同 的 原始 数据 。 例 如 ， 一 个 给 定 的 位 置 可 能 被 
卫星 导航 传感器 感知 成 纬度 /经 度 对 ， 或 者 被 附近 的 红外 线 源 感知 成 “Joe's CafE” 字 符 串 。 应 用 程 
序 所 需要 的 可 能 是 两 者 之 一 或 两 者 都 需要 ， 或 两 者 都 不 需要 。 需 要 对 上 下 文 属性 的 含义 达成 一 致 
需要 软件 从 传感器 原始 数值 中 推断 出 这 些 属性 。 

传感器 输出 可 能 需要 结合 ”可靠 地 感知 一 种 现象 可 能 需要 结合 来 自 多 个 误差 检测 源 的 数据 。 例 
如 ， 检 测 人 的 出 现 可 能 需要 : 麦克 风 (用 来 检测 声音 ， 但 附近 的 声音 会 产生 干扰 )、 地 板 压力 传 感 
器 (用 来 监测 人 的 活动 ， 但 很 难 区 分 不 同 用 户 的 模式 ) 以 及 录像 机 (用 来 监测 人 的 形体 ， 但 很 难 
区 分 面部 特征 )。 传 感 器 融合 是 指 结合 传感器 源 以 减少 错误 。 同 样 的 ， 应 用 为 了 收集 操作 需要 的 多 
种 上 下 文 属性 ， 可 能 需要 不 同类 型 的 传感器 输出 。 例 如 ， 一 个 上 下 文敏 感 PDA 为 了 决定 是 否 将 它 
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的 数据 投影 到 附近 的 一 个 显示 器 上 ， 需 要 来 自 不 同 传感器 源 的 数据 ， 包 括 监测 现场 有 谁 和 什么 设 
备 的 传感器 以 及 一 个 或 多 个 感知 位 置 的 传感器 。 

上 下 文 是 动态 的 上 下 文敏 感应 用 通常 需要 对 上 下 文 的 变化 做 出 响应 ， 并 且 不 是 只 读 取 上 下 文 
的 一 个 快照 。 例 如 ， 如 果 非 员工 进入 或 者 如 果 Fred (设备 的 主人 ) 离开 房间 ， 上 下 文敏 感 PDA 必 
须 清 除 房 间 里 显示 器 上 的 数据 。 

研究 者 设计 出 了 各 种 软件 体系 结构 以 支持 上 下 文敏 感应 用 ， 同 时 处 理 上 面 提 到 的 一 些 或 所 有 
问题 。 我 们 将 给 出 一 些 体系 结构 的 例子 ， 它 们 用 于 传感器 几乎 是 已 知 的 和 静态 的 情况 ， 或 者 用 于 
确定 来 自 易 变 传感器 集合 的 上 下 文 属性 一 一 此 时 非 功能 性 需求 (比如 能 量 节 约 ) 也 变 得 很 重要 。 

基础 结构 中 的 感知 Active Badge 传 感 器 最 初 部 署 在 英国 剑桥 Olivetti 研 究 室 ， 位 于 建筑 物 内 已 
知 的 、 固 定 的 地 点 。 最 初 的 上 下 文敏 感应 用 之 一 是 电话 接线 员 帮 助 系统 。 如 果 有 人 打 电 话说 让 Roy 
接 电话 ， 接 线 员 就 会 在 屏幕 上 查找 Roy 的 房间 位 置 ， 随 后 将 电话 转 到 一 个 最 合适 的 范围 。 系 统 从 上 
次 感知 Roy 穿戴 的 标记 的 信息 中 确定 Roy 的 位 置 ， 并 将 信息 显示 给 接线 员 。Olivetti 研 究 室 和 Xerox 
PARC 进 一 步 精 化 了 用 于 处 理 Active badge 数 据 和 其 他 上 下 文 数据 的 系统 。Harter 和 Hopper[1994] 描 
述 了 一 种 用 于 处 理 位 置 事件 的 完整 的 系统 。Schilit 等 [1994] 也 描述 了 一 种 能 处 理 Active badge 感 知 
事件 的 系统 ， 通 过 这 些 事 件 ， 它 们 调用 上 下 文 触发 动作 。 例 如 ， 下 面 的 说 明 表 示 : 

Coffee Kitchen arriving 'play-v 50/ sounds/rooster.au' 

当 感 知 到 标记 靠近 安装 在 厨房 的 咖啡 机 上 的 传感器 时 ， 就 会 发 出 一 种 声音 。 

Coritext 工 具 包 [Salber et al. 1999] 是 比 那些 基于 特殊 技术 . (如 Active Badges) 更 通用 的 上 下 文 
敏感 应 用 使 用 的 一 种 系统 体系 结构 。 正 是 Context 工 具 包 的 设计 者 们 阐述 了 上 面 列 出 的 上 下 文敏 感 
系统 面临 的 四 个 挑战 。 他 们 的 体系 结构 遵循 了 如 何 通 过 可 重用 窗口 部 件 库 构 成 图 形 用 户 界面 的 模 
型 ， 这 种 方式 对 应 用 的 开发 人 员 隐 藏 了 对 底层 硬件 处 理 的 大 多 数 细节 和 大 部 分 的 交互 管理 。 
Context 工 具 包 定义 了 上 下 文 窗口 部 件 。 那 些 可 重用 软件 组 件 给 出 了 某 些 上 下 文 属性 的 抽象 表示 ， 
同时 隐藏 了 实际 使 用 的 传感器 的 复杂 性 。 例 如 ， 图 16-5 显 示 了 IdentityPresence 窗 口 部 件 的 接口 。 它 
通过 轮 询 窗口 部 件 将 上 下 文 属性 提供 给 软件 ， 并 在 上 下 文 信息 改变 时 (用 户 到 达 或 离开 ) 发 起 调 
用 。 如 上 所 述 ， 可 以 从 给 定 实 现 中 的 多 个 传感器 的 组 合 的 任何 一 个 中 得 到 人 员 出 现 信 息 ， 抽 象 使 
得 应 用 程序 编写 者 忽略 了 那些 细节 。 


He 





Locaion 窗口 部 件 正在 监控 的 位 置 
Identity 上 一 个 被 感知 的 用 户 ID 
Timestamp 上 一 次 到 达 的 时 间 


PersonArrives(location, identity, 
timestamp) 用 户 到 达 时 触发 
PersonLeaves(location, identity, 


timestamp) 用 户 离开 时 触发 


图 16-5 Context 工 具 包 的 IdentityPresence 窗 口 部 件 类 


部 件 是 从 分 布 式 组 件 中 构建 的 。 生 成 器 从 传感器 (比如 地 板 压力 传感器 ) 中 得 到 原始 数据 ， 
并 且 将 数据 提供 给 窗口 部 件 。 窗 口 部 件 使 用 解释 器 服务 ， 访 服务 从 生成 器 的 原始 数据 中 提取 上 下 
文 属性 ， 得 到 较 高 级 的 值 ， 比 如 ， 从 人 的 不 同 脚 步 声 中 判断 出 人 的 身份 。 最 后 ， 由 服务 器 部 件 提 
供 更 高 级 抽象 ， 该 抽象 是 通过 从 其 他 小 部 件 收 集 、 存 储 并 解释 上 下 文 属性 得 到 的 。 例 如 ， 建 筑 物 
的 一 个 PersonFinder 部 件 能 够 由 该 建筑 物 内 各 个 房间 的 IdentityPresence 部 件 构 成 ( 见 图 16-6) 。 


Un 
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686| IdentityPresence 部 件 又 可 以 使 用 地 板 压 力 传感器 提供 的 脚步 解释 或 视频 捕捉 的 脸 部 识别 来 实现 。 
PersonFinder 窗 口 部 件 为 应 用 程序 编写 者 封装 了 建筑 物 的 复杂 性 。 
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房间 B 


加 脚步 识别 地 面部 识别 
(解释 器 ) (解释 器 ) 


地 板 压力 (生成 器 ) 视频 (生成 器 ) 
图 16-6 使 用 IdentityPresence 窗口 部 件 构建 PersonFinder 窗 口 部 件 


关于 上 面 提 到 的 由 Context 工 具 包 的 设计 者 提出 的 四 个 挑战 ， 它 们 的 体系 结构 容纳 了 各 种 类 型 
的 传感器 ， 它 从 传感器 的 原始 数据 中 获得 抽象 的 上 下 文 属 性 ， 上 下 文敏 感应 用 程序 通过 轮 询 或 回 
调 的 方式 来 获知 上 下 文 的 变化 。 但 该 工具 包 的 实用 性 有 限 。 它 并 没有 帮助 用 户 和 程序 员 集成 异 质 
的 传感器 ， 也 没有 为 特定 情况 解决 任何 解释 和 合成 进程 所 固有 的 难题 。 

无 线 传感器 网 络 我 们 讨论 过 了 传感器 集合 相对 稳定 的 应 用 的 体系 结构 。 例 如 ， 传 感 器 安装 在 
建筑 物 的 房间 内 ， 通 常 有 外 部 电源 和 有 线 网 络 连接 。 我 们 现在 转 而 研究 由 传感器 集合 形成 一 个 易 
变 系统 的 情况 。 无 线 传感器 网 络 包括 很 多 (通常 有 大 量 的 ) 小 的 、 低 成 本 设备 或 节点 ， 每 一 个 节 
点 都 带 有 用 于 感知 、 计 算 和 无 线 通 信 的 设施 [Culler et al.2004]。 它 是 自 组 织 网 络 的 一 个 特例 : 节点 
在 物理 上 几乎 是 随意 安排 的 ， 但 它们 可 以 通过 节点 间 的 物理 多 跳 进行 通信 。 这 些 网 络 的 一 个 重要 
的 设计 目标 是 在 无 全 局 控制 条 件 下 运作 ， 每 个 节点 通过 发 现 它 的 无 线 邻居 和 与 它们 的 通信 来 自 举 
它 自己 。3.5.2 节 描述 了 802.11 网 络 中 的 自 组 织 配置 ， 但 是 在 这 里 我 们 更 关注 低 功率 技术 ， 比 如 
ZigBee (IEEE 802.15S.4) 。 

节点 不 在 单 跳 中 与 其 他 节点 进行 通信 ， 而 只 与 相 邻 的 节点 直接 通信 。 原 因 是 ， 无 线 通信 在 能 
量 消耗 上 是 很 大 的 《与 无 线 电 射 程 的 平方 成 正比 ) 。 另 一 个 限制 单个 无 线 电 射程 的 主要 原因 是 减少 
网 络 竞争 。 

无 线 传 感 网 络 被 设计 成 加 入 到 一 个 已 存在 的 自然 或 构建 的 环境 中 ， 并 且 不 依赖 环境 运作 ( 即 
不 依赖 基础 设施 ) 。 由 于 它们 无 线 电 波 和 感知 范围 有 限 ， 节 点 必须 安装 得 足够 密集 从 而 使 得 能 够 在 

任意 两 节点 间 多 跳 通 信和 感知 重大 的 现象 。 

例如 ， 考 虑 设备 遍布 整个 森林 ， 它 们 的 任务 是 监控 火灾 和 其 他 环境 条 件 ， 比 如 动物 出 现 。 这 
些 节 点 非常 像 16.1.1 节 介绍 的 设备 。 它 们 各 自 有 附属 的 传感器 ， 例 如 ， 用 于 检测 温度 、 声 音 和 亮度 
的 传感器 ， 它 们 使 用 电池 组 。 此 外 ， 它 们 与 其 他 设备 以 对 等 方式 通过 短程 无 线 电 通 信 进 行 交 流 。 
易 变 性 源 于 设备 会 因为 电池 耗 尽 或 者 事故 (比如 火灾 ) 而 停止 运转 ， 并 且 他 们 的 连通 性 可 能 由 于 
节点 故障 (节点 在 其 他 节点 间 传 递 包 ) 或 影响 无 线 电 传播 的 环境 条 件 而 改变 。 

另 一 个 例子 是 用 于 监控 交通 和 路 面条 件 的 节点 安装 在 车 辆 上 的 什么 位 置 。 观 察 到 不 佳 情 况 的 
节点 可 以 将 该 消息 通过 车 辆 上 的 节点 传送 。 由 于 连通 性 足够 充分 ， 因 此 该 系统 能 够 警告 出 现在 该 
问题 前 方 附近 的 驾驶 者 。 在 这 里 ， 出 现 易 变性 主要 是 由 于 节点 的 运动 ， 运 动 会 迅速 地 改变 每 个 节 
点 与 其 他 节点 的 连通 性 。 这 是 移动 自 组 织 网 络 的 一 个 例子 。 

通常 ， 无 线 传 感 网 络 专用 于 应 用 特定 目的 ， 等 同 于 检测 某 种 警报 ， 即 感 兴趣 的 情况 (比如 火 
灾 或 糟糕 的 路 面 情况 ) 。 该 网 络 中 至 少 包括 一 台 功 能 强大 的 设备 ， 称 为 根 节 点 ， 用 于 与 响应 警报 的 
常规 系统 进行 远 距 离 通信 ， 例 如 发 生火 灾 时 的 呼叫 紧急 服务 。 
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构造 传感器 软件 体系 结构 的 一 种 方法 是 通过 从 高 层 中 分 离 出 网 络 层 ， 并 视 它们 类 似 于 传统 网 
络 。 特 别 地 ， 当 它们 动态 地 发 现 它们 自己 已 经 通过 直接 无 线 电 链接 进行 连接 ， 并 且 每 个 节点 都 能 
够 作为 与 其 他 节点 通信 的 路 由 器 时 ， 就 可 以 对 节点 图 采用 已 有 的 路 由 算法 。 自 适应 路 由 试图 适应 
网 络 的 易 变性 ， 目 前 它 已 是 研究 的 热点 ，Milanovic 等 [2004] 提 供 了 某 些 技术 的 概述 。 

然而 ， 对 网 络 层 的 关心 引发 了 下 面 的 问题 。 第 一 ， 自 适应 路 由 算法 不 必 考 虑 低能 量 (和 带宽 ) 
消耗 。 第 二 ， 易 变性 影响 了 传统 的 网 络 层 以 上 层 的 一 些 假设 。 无 线 传 感 网 络 软件 体系 结构 的 另 一 
种 首要 方法 由 两 个 主要 需求 驱动 : 能 量 节 约 和 在 易 变性 条 件 下 持续 运作 。 这 两 个 因素 导致 了 三 个 
主要 体系 结构 特征 : 网 络 内 处 理 。 容 中 断 网 络 和 面向 数据 编程 模型 。 

网 络 内 处 理 : 无 线 通 信和 不 但 能 量 消耗 过 高 ， 而 且 与 处 理 相 比 代价 也 很 高 。Pottie 和 Kaiser[2000] 
计算 了 能 量 消耗 ， 发 现 无 线 电 将 1K 比 特 数 据 传输 100 米 所 使 用 的 能 量 (3J) 可 以 令 一 台 通用 处 理 器 
执行 300 万 条 指令 。 因 此 ， 通 常情 况 下 ， 处 理 优 于 通信 : 最 好 花费 几 个 处 理 器 周期 来 决定 是 否 仍 需 
要 通信 ， 而 不 是 盲目 地 传送 感知 到 的 数据 。 毫 无 疑问 ， 这 是 传感器 网 络 的 节点 有 处 理 能 力 的 原 
因 一 一 否则 ， 它 们 可 能 只 由 将 感知 的 数值 发 送 到 根 节 点 处 理 的 感知 通信 模块 组 成 。 

网 络 内 处 理 是 指 在 传感器 网 络 内 处 理 。 也 就 是 说 ， 在 网 络 节点 上 处 理 。 传 感 器 网 络 中 的 节点 
执行 如 下 任务 : 求 来 自 邻 近 节点 的 数值 的 总 和 或 平均 值 ， 从 而 为 一 个 区 域 而 不 是 单个 传感器 检查 
数值 ， 过 滤 掉 不 感 兴趣 的 或 重复 的 数据 ， 检 查 数据 以 检测 警报 ， 根 据 感知 的 数据 接 通 或 切断 传 感 
器 。 例如， 如 果 低 功率 光线 传感器 指示 可 能 有 动物 出 现 (由 于 影子 的 投射 ) ， 那 么 影子 投射 的 位 置 
附近 的 节点 就 会 接 通 它们 的 高 功率 传感器 ， 比 如 用 于 探测 动物 声音 的 麦克 风 。 在 该 方案 中 ， 为 了 
节约 能 量 ， 应 该 在 其 他 情况 下 关闭 麦克 风 。 

容 中 断 网 络 : 端 对 端的 争论 ( 见 2.2.1 节 ) 是 分 布 式 系统 的 一 个 重要 的 体系 结构 方面 的 原则 。 
然而 ， 在 易 变性 系统 (比如 传感器 网 络 ) 中 ， 可 能 没有 持续 存在 时 间 足 够 长 的 端 对 端 路 径 去 实现 
一 个 操作 (比如 块 数据 跨 系 统 移动 )。 术 语 容 中 断 网 络 和 容 延迟 网 络 用 于 实现 较 高 层 跨 易 变 (通常 
异 构 ) 网 络 的 传输 [www.dtnrg.org]j。 这 个 技术 不 仅 用 于 传感器 网 络 ， 而 且 可 以 用 于 其 他 易 变 网 络 ， 
比如 空间 研究 需要 的 星球 间 通 信 系 统 [www.ipnsig.org]。 通 信 并 不 是 依赖 两 个 固定 端点 间 的 持续 连 
通 性 进行 的 ， 而 是 寻找 机 会 进行 的 : 数据 在 它 能 够 传输 的 时 候 传输 ， 并 且 节 点 以 存储 转发 方式 承 
担 起 传输 数据 的 责任 ， 直 至 达到 端 对 端 目 标 (比如 整 批 运输 )。 节 点 间 的 传输 单元 称 为 束 [Fall 
2003]， 它 包括 源 端 应 用 程序 数据 和 描述 如 何在 终点 和 中 间 节 点 管理 和 处 理 它 的 数据 。 例 如 ， 一 个 
束 可 能 通过 逐 跳 可 靠 传输 来 传送 。 束 一 旦 交付 ， 接 收 节点 就 承担 起 随后 的 传送 责任 ， 以 此 类 推 。 
这 个 过 程 不 依赖 任何 持续 的 路 由 ， 而 且 资 源 不 足 的 节点 将 数据 传送 给 下 一 跳 之 后 ， 就 将 存储 数据 
释放 了 。 为 了 预防 故障 ， 数 据 可 以 元 余地 转发 给 多 个 相 邻 节点 。 

面向 数据 编程 模型 考虑 应 用 层 的 互 操作 ， 面 向 数据 技术 包括 定向 扩散 和 分 布 式 查询 处 理 ， 
简单 地 说 ， 它 用 于 传感器 网 络 的 应 用 。 这 些 技术 通过 将 处 理 分 布 在 节点 间 的 方法 的 协作 来 识别 网 
络 内 处 理 的 需要 。 此 外 ， 这 些 技术 通过 消除 节点 的 标识 (和 其 他 组 件 的 名 字 ， 比 如 与 节点 相关 的 
进程 和 对 象 ) 来 识别 传感器 网 络 的 易 变 性 。 正 如 我 们 在 16.3.2 节 所 讨论 的 ， 任 何 依赖 于 节点 或 组 件 
的 持续 存在 的 程序 在 易 变 系统 中 不 会 健壮 地 运行 ， 因 为 存在 与 节点 或 组 件 无 法 通信 的 可 能 。 

在 定向 扩散 [Heidemann et al. 2001] 中 ， 由 程序 员 说 明 兴 趣 一 一 它 是 要 注入 到 系统 中 一 个 称 为 模 
(sink) 的 节点 的 任务 的 声明 。 例 如 ， 一 个 节点 可 能 对 动物 的 出 现 感 兴趣 。 每 个 兴趣 包括 若干 属 
性 - 值 对 ， 它 们 是 将 要 执行 该 任务 的 节点 的 “名 字 ”。 那 么 ， 对 节点 的 引用 不 是 通过 它 的 标识 而 是 
通过 执行 所 要 求 任务 所 需要 的 特性 ， 比 如 在 某 个 可 感知 的 范围 内 的 值 。 

运行 系统 在 称 为 扩散 〈 参 见 图 16-7a) 的 进程 中 将 兴趣 从 一 个 槽 传 志 网 络 。 槽 将 兴趣 转发 给 相 
邻 节 点 。 任 何 收 到 兴趣 的 节点 在 将 它 向 前 传播 以 搜索 匹配 该 兴趣 的 节点 之 前 保存 它 的 一 个 记录 ， 
以 及 回 传 数据 给 槽 节点 所 需要 的 信息 ， 源 节点 是 一 个 匹配 兴趣 的 节点 ， 它 的 特性 与 兴趣 中 说 明 的 
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属性 - 值 对 相 匹 配 一 一 例如 ， 它 可 能 装配 了 合适 的 传感器 。 对 于 一 个 给 定 兴 趣 ， 可 能 有 多 个 源 节 点 
(就 像 将 兴趣 和 注入 多 个 模 ) 。 当 运行 系统 找到 一 个 匹配 的 源 节 点 时 ， 它 将 兴趣 传 给 应 用 程序 ， 应 用 
程序 接 通 它 所 需要 的 传感器 并 产生 槽 节点 所 需要 的 数据 。 运 行 系统 沿 着 由 从 槽 到 源 节点 构成 的 路 
径 回 送 数据 给 槽 。 


的 醒 村 
[ EL.3 
” ~ NA 
4 “`、* 针 六 SN 源 。 ~ 源 
* 汰 源 源 
a) 兴趣 的 传播 b) 建立 梯度 c) 数据 传送 


图 16-7 定向 扩散 


一 般 来 说 ， 没 有 节点 事先 了 解 其 他 哪个 节点 可 作为 源 ， 因 此 定向 扩散 可 能 包括 大 量 多 余 的 通 
着。 最 坏 情况 下 ， 一 个 兴趣 可 能 遍布 整个 网 络 。 然 而 ， 有 时 候 兴趣 只 与 某 个 物理 区 域 相关 ， 比 如 
森林 中 的 一 个 特定 区 域 。 如 果 传感器 节点 知道 它们 的 位 置 ， 那 么 兴趣 只 需 传播 到 目标 区 域 。 从 原 
则 上 讲 ， 节 点 为 了 达到 该 目的 应 装配 卫星 导航 接收 器 ， 尽 管 自然 覆盖 (比如 茂密 的 树木 ) 可 能 阻 
碍 接收 数据 。 

从 源 到 模 的 数据 回流 由 梯度 控制 ， 梯 度 是 节点 间 的 (方向 ， 值 ) 对 ， 它 是 当 某 个 兴趣 在 整个 
网 络 中 扩散 时 建立 的 ( 见 图 16-7b)。 方 向 是 数据 流动 的 方向 ， 值 是 应 用 特定 的 但 可 用 于 控制 流动 
的 速率 。 例 如 ， 模 每 小 时 可 能 只 需要 一 定 次 数 的 动物 监测 数据 。 从 给 定 源 到 给 定 槽 可 能 有 多 条 路 
径 。 系 统 可 以 采用 各 种 策略 来 进行 选择 ， 包 括 万 一 发 生 故 障 时 使 用 宛 余 的 路 径 ， 或 者 使 用 启发 式 
算法 找到 一 条 最 短路 径 〈 见 图 16-7c) 。 

应 用 程序 员 也 可 以 使 用 称 为 过 滤器 的 软件 ， 过 滤器 在 每 个 节点 上 运行 ， 截 取经 过 该 节点 的 匹 
配 的 数据 流 。 例 如 ， 过 滤器 可 以 压缩 重复 的 动物 监测 警报 ， 它 们 来 自 于 感知 到 同一 动物 的 不 同 节 
点 〈 可 能 是 图 16-7c 中 源 和 槽 之 间 的 节点 )。 

另 一 种 用 于 传感器 网 络 编程 的 面向 数据 方法 是 分 布 式 查询 处 理 [Gehrke and Madden 2004]。 在 
这 种 情况 下 ， 使 用 一 种 类 似 SQL 的 语言 来 声明 将 要 由 节点 共同 执行 的 查询 。 考 虑 到 与 使 用 革 种 伟 
感 器 节点 有 关 的 所 有 已 知 开销 ， 执 行 查询 最 好 的 方案 通常 是 在 用 户 PC 或 网 络 外 的 基站 上 处 理 。 考 
虑 到 处 理 查询 细节 的 通信 模式 ， 基 站 沿 着 动态 发 现 路 径 将 优化 的 查询 分 发 到 网 络 中 的 节点 ， 比 如 
为 了 计算 平均 数据 ， 需 要 将 数据 发 送 到 收集 节点 。 使 用 定向 扩散 ， 数 据 能 在 网 络 中 聚集 以 分 担 通 
信 代 价 。 结 果 流 回 到 基站 ， 等 待 进一步 处 理 。 

16.4.3 位 置 感 知 


在 无 处 不 在 计算 使 用 的 各 种 感知 中 ， 位 置 感 知 是 最 受 关注 的 。 位 置 是 移动 和 上 下 文敏 感 计算 
的 一 个 基本 参数 。 它 可 以 使 应 用 和 设备 很 自然 地 以 依赖 于 用 户 在 什么 地 方 的 方式 运转 ， 比 如 上 下 
文敏 感 手机 。 但 位 置 感知 有 很 多 其 他 的 用 途 ， 从 帮助 用 户 在 城市 或 乡下 导航 到 根据 地 理 信 息 决定 
网 络 路 由 [Imielinski and Navas 1999]。 

位 置 感知 系统 用 于 得 到 对 象 在 某 种 感 兴趣 区 域内 的 位 置 (居住 地 或 其 他 位 置 ) 的 数据 。 这 里 
我 们 将 关注 对 象 位 置 ， 然 而 利用 一 些 技术 也 可 以 得 到 对 象 的 方位 值 或 更 多 信息 ， 比 如 它们 的 速度 。 

由 对 象 或 用 户 确定 自己 的 位 置 ， 还 是 由 其 他 物体 确定 位 置 有 很 大 的 区 别 ， 特 别 是 读 到 私密 性 
时 更 为 重要 。 后 一 种 情况 称 为 跟踪。 

图 16-8 (基于 [Hightower and Borriello 2001]j 中 类 似 的 图 ) 显示 了 某 些 位 置 技术 和 它们 的 主要 
特性 。 其 中 一 个 特性 是 用 于 得 到 位 置 的 机 制 。 读 机 制 有 时 会 限制 技术 的 部 署 (比如 技术 是 运行 在 





移动 计划 和 无 处 不 左 矿 蔓 439 





室内 还 是 室外 ) 和 本 地 基础 设施 需要 的 装置 。 该 机 制 也 与 精确 度 有 关 ， 图 16-8 中 以 数量 级 次 序 给 出 。 
其 次 ， 不 同 技术 产生 关于 对 象 位 置 的 不 同 数据 类 型 。 最 后 ， 技 术 在 给 要 定位 的 实体 提供 的 信息 方 
面 有 区 别 ， 这 与 用 户 关心 的 私密 性 是 相关 的 。 在 Hightower 和 Borrieilo[2001] 中 概述 了 额外 的 技术 。 














类 型 机 制 局 限 性 精确 度 位 昨 数 据 的 类 型 
GPS 11 星 射 频 源 的 室外 (卫星 绝对 地 理 坐 标 
多 时 段 定位 法 可 见 ) 1 一 10m (纬度 、 经 度 、 高 度 ) 
无 线 电 信和 标 无 线 基 站 的 广播 无 线 福 盖 |X 域 10m~ lkm 接近 已 知 的 实体 
(GSM、802.11、 蓝 政 ) (通常 是 语义 上 的 ) 
Active Bat 无 线 电 和 超声 波 的 安装 了 传感器 10cm 相对 (房间 ) 坐标 暴露 
多 时 段 定 位 法 的 天 花 板 Bat 身 份 
超 宽带 无 线 电 脉冲 接收 的 接收 器 装置 15cm 相对 (房间 ) 坐标 暴露 标记 
多 时 段 定位 法 身份 
Active badge 红外 传 感 日 光 或 荧光 房间 大 小 接近 已 知 的 实体 暴露 
(通常 是 语义 上 的 ) Badge 身 份 
自动 识别 标记 。 RFID、 近 距离 通信 、 阅读 器 装置 lcm ~ 10m 接近 已 知 的 实体 又 露 标记 
可 视 标记 (比如 ， 条 (通常 是 语义 上 的 ) 身份 
形 码 ) 
Easy Living 视觉 ， 三 角 测量 照相 机 不 定 的 相对 (房间 ) 坐标 无 





图 16-8 一 些 位 置 感知 技术 


美国 全 球 定位 系统 (GPS) 是 卫星 导航 系统 的 一 个 最 著名 的 实例 一 -一 个 通过 卫星 信号 确定 接 
收 器 或 装置 的 近似 位 置 的 系统 。 其 他 的 卫星 导航 系统 有 俄罗斯 的 GLONASS 系 统 和 计划 中 的 欧洲 
Galiieo 系 统 。 由 于 在 建筑 物 内 信号 会 削弱 ， 所 以 GPS 只 作用 于 室外 ， 它 通常 用 于 车 辆 和 手持 设备 的 
导航 ， 并 且 逐 渐 用 于 非 传统 的 应 用 ， 比 如 在 城市 内 将 依赖 于 位 置 的 媒体 数据 传送 给 人 们 [Hull et al 
2004]。 接 收 者 的 位 置 是 根据 绕 地 球 6 个 平面 运行 的 24 颗 卫星 的 一 个 子 集 计 算 的 ， 每 个 平面 4 颗 。 每 
颗 卫 星 每 天 绕 地 球 运 行 2 圈 。 每 颗 卫星 广播 其 上 原子 钟 的 当前 时 间 ， 以 及 在 一 段 时 间 内 它 的 位 置信 
息 (通过 来 自 地 面 站 的 观测 判断 )。 接 收 者 ( 它 的 位 置 是 确定 的 ) 根据 信号 被 接收 到 的 时 间 和 它 被 
广播 的 时 间 的 差 值 (也 就 是 信号 编码 的 时 间 ) 以 及 无 线 电 从 卫星 到 地 面 传播 的 速度 估计 来 计算 它 
到 每 个 可 见 卫星 的 距离 。 然 后 ， 阅 读 器 利用 称 为 “多 时 段 定 位 法 ”的 三 角 计算 来 计算 它 的 位 置 , 
要 得 到 一 个 位 置 ， 那 么 至 少 有 3 颗 卫星 对 接收 者 是 可 见 的 。 如 果 刚 好 有 3 颗 卫 星 可 见 ， 那 么 阅读 器 
就 只 能 计算 出 它 的 纬度 和 经 度 ， 若 有 更 多 可 见 卫星 ， 也 可 以 计算 高 度 。 

另 一 种 可 能 在 广 域 范围 ， 至 少 在 人 口 高 度 密集 区 域 工作 的 定位 方法 是 ， 监 听从 范围 有 限 的 无 
线 基站 发 出 的 (定期 广播 的 ) 信 标 。 设 备 可 以 用 信号 强度 度量 哪个 是 最 近 基站 。 移 动 电话 的 每 个 
GSM 基 站 都 有 一 个 单元 标识 符 ，802.11 接 入 点 有 一 个 基本 服务 区 标识 符 (BSSID)。 基 站 定期 广播 
它们 标识 符 的 信 标 ， 除 非 为 了 安全 的 原因 而 配置 为 不 发 送 。 蓝 牙 “ 信 标 机 ”是 一 种 设备 ， 它 为 另 
一 台 发 现 它 的 设备 提供 它 的 标识 符 , 但 它 实 际 上 不 会 广播 它 的 标识 符 。 

无 线 电信 标 自身 不 会 确定 实体 的 位 置 ， 除 非 它 接近 另 一 个 实体 时 。 如 果 发 信 标 的 实体 的 位 置 
已 知 ， 那 么 就 知道 目标 实体 的 位 置 是 在 无 线 电 射程 内 。 因 此 绝对 定位 是 在 数据 库 中 查找 信 标 标识 
符 。 管 理 无 线 电源 的 机 构 ( 比 如 电信 提供 商 ) 一 般 不 会 公开 位 置 的 细节 。 但 是 在 一 些 社区 项 目 中 ， 
用 户 可 以 自己 提供 详细 的 位 置 。 

接近 度 本 身 就 是 一 个 有 用 的 属性 。 例 如 ， 使 用 接近 度 可 以 创建 位 置 敏感 的 应 用 ， 该 应 用 在 用 
户 返 回 到 以 前 访问 过 的 位 置 时 触发 。 例 如 ， 在 火车 站 等 待 的 用 户 可 以 创建 一 个 警告 ， 当 他 在 每 月 
的 第 一 天 走 近 火车 站 时 (也 就 是 说 ， 当 他 们 的 设备 接收 到 相同 的 信 标 标识 符 时 )， 提 醒 他 去 买 新 的 
火车 月 票 。 蓝 牙 是 另 -- 种 新 颖 的 无 线 电 技术 ， 它 具有 一 个 有 趣 的 特征 ， 就 是 有 些 无 线 电信 标 ( 例 
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如 ， 某 些 与 移动 手机 集成 的 信 标 ) 本 身 是 移动 的 。 这 仍然 有 用 。 例 如 ， 火 车 乘客 会 通过 他 们 的 移 
动手 机 从 经 常 一 起 旅行 的 人 ， “熟悉 的 陌生 人 ”那里 按 收 数据 。 








1. 基 站 向 超声 波 接收 器 发 送 
六 一 一 一 一 一 一 一 本 报时 信号 ， 同 时 向 bat 发 
本 | NAN 仆 送 无 线 电 信号 









3. 超声 波 接收 器 报 
告 超声 波 脉冲 飞 
行 的 次 数 


4. 基站 根据 飞行 次 数 计算 到 
2. Active bat 一 接收 到 无 线 | “超声波 接收 器 的 距离 ， 这 
电信 号 就 发 送 超声 波 信号 | ”就 是 bat 的 位 置 

图 16-9 在 房间 内 定位 一 个 Active Bat 


考虑 更 为 明确 的 定位 形式 ，GPS 得 到 室外 对 象 的 绝对 (也 就 是 全 球 ) 坐标 。 相 比 之 下 ，Active 
Bat 系 统 [Harter et al. 2002] 能 够 产生 对 象 或 人 在 室内 的 位 置 的 相对 坐标 ， 也 就 是 相对 于 该 对 象 所 在 
房间 的 位 置 得 到 的 坐标 ( 见 图 16-9)。Active Bat 系 统 的 精确 度 大 约 是 10cm。 相 对 精确 的 室内 位 置 
对 应 用 而 言 是 有 用 的 ， 比 如 检测 移动 用 户 距离 哪个 屏幕 最 近 ， 并 且 使 用 VNC 协 议 〈 见 2.2.3 节 ) 将 
PC 的 桌面 “ 远 距离 运输 ”到 该 屏幕 。Bat 是 附着 在 要 定位 的 用 户 或 对 象 上 的 一 种 设备 ， 它 能 接收 无 
线 电信 号 并 发 射 超声 波 信和 号。 该 系统 依赖 位 于 天 花 板 已 知 位 置 的 一 个 超声 波 接 收 器 子 网 ， 访 子 网 
通过 有 线 连接 连 到 一 个 基站 。 为 了 定位 Bat， 基 站 向 bat 发 射 一 个 包括 其 标识 符 的 无 线 电 信和 号， 同时 
向 安装 在 天 花 板 的 超声 波 接 收 器 发 射 一 个 有 线 信 号 。 当 带 有 给 定 标 识 符 的 bat 接 收 到 基站 的 信号 时 ， 
它 发 射 一 个 短 超 声波 脉冲 。 当 天 花 板 上 的 接收 器 接收 到 基站 的 信号 时 ， 它 启动 一 个 计时 器 。 因 为 
电磁 波 传播 的 速度 远 远 大 于 声音 的 传播 速度 ， 所 以 超声 波 脉冲 的 发 射 和 计时 器 的 启动 实际 上 是 同 
时 的 。 当 一 个 天 花 板 接收 器 接收 到 相应 的 超声 波 脉 冲 (来 自 Bat) 时 ， 它 计算 间隔 的 时 间 ， 并 将 时 
间 转 发 给 基站 ， 基 站 根据 对 声音 速度 的 一 个 估计 来 推断 接收 器 到 bat 的 距离 。 如 果 基 站 接收 到 至 少 
三 个 非 共 性 超声 波 接收 器 的 距离 ， 它 就 能 计算 出 bat 在 三 维 空间 的 位 置 。 

超 宽带 (Ultra Wide Band，UWB) 是 用 来 在 短程 内 (不 超过 10m) 以 高 比特 率 (100Mbps 或 
更 多 ) 传播 数据 的 技术 。 比 特 通 过 低 功 耗 但 很 宽 的 频谱 ， 使 用 细 脉 冲 (宽度 为 lns) 进行 传播 。 给 
定 脉冲 的 大 小 和 形状 ， 可 以 测量 脉冲 的 变化 的 次 数 从 而 得 到 很 高 的 精确 度 。 通 过 在 环境 中 放置 接 
收 器 和 使 用 上 述 技术 以 及 多 时 段 定 位 法 ， 可 以 确定 一 个 UWB 标 记 的 坐标 ， 其 精确 度 大 约 为 15cm，。 
与 其 他 技术 不 同 ，UWB 信 号 可 以 穿 过 建筑 物 内 的 墙壁 或 其 他 类 型 的 障碍 物 。 它 的 另 一 个 优点 是 功 
耗 低 。 

GPS、Active Bat 和 UWB 都 能 提供 对 象 的 物理 位 置 数据 ;在 物理 区 域 中 的 坐标 。 知 道 物 理 位 置 
的 一 个 好 处 是 ， 通 过 地 理 信息 系统 (GIS) 和 建筑 空间 的 世界 模型 数据 库 ， 一 个 位 置 能 与 对 象 的 很 
多 其 他 类 型 的 信息 或 其 他 对 象 相 联系 。 然 而 ， 不 利之 处 是 生成 和 维护 数据 库 所 需 的 开销 ， 这 些 数 
据 库 可 能 会 有 很 高 的 变化 率 。 

相 比 之 下 ，Active Badge 系 统 〈( 见 16.1 节 ) 产生 对 象 的 语义 位 置 ， 位 置 的 名 字 和 描述 。 例 如 ， 
如 果 一 个 Badge 被 101 室 的 红外 线 接收 器 感知 到 ， 则 Badge 的 位 置 确 定 为 “101 房 间 ” (与 大 多 数 无 线 
电信 号 不 同 ， 建 筑 材料 会 极 大 地 削弱 红外 线 信号 ， 所 以 Badge 不 可 能 在 房间 外 被 识别 )。 除 了 在 空 
间 中 的 位 置 ， 该 数据 什么 也 没有 告诉 我 们 ， 但 是 它 为 用 户 提供 了 与 他 居住 的 世界 相关 的 信息 。 相 
对 而 言 ， 相 同 地 点 的 纬度 和 经 度 51"27.010 N 002°37.107W 可 以 用 于 计算 到 其 他 地 点 的 距离 ， 但 人 
们 使 用 它 很 困难 。 注 意 ， 无 线 电 信 标 ( 它 与 Active Badge 截 然 不 同 ， 它 将 接收 器 放置 在 将 要 定位 的 
目标 上 而 不 是 在 基础 设施 上 ) 可 以 用 于 提供 语义 位 置 ， 或 是 (非常 接近 的 ) 物理 位 置 。 

Active Badges 是 自动 标识 标记 的 一 种 特殊 形式 ， 自 动 标识 标记 是 电子 可 读 的 标识 符 ， 它 通常 
是 为 大 规模 工业 应 用 设计 的 。 自 动 标识 标记 包括 RFID[Want 2004]、 近 距离 通信 (NFC) 
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[www.nfc-forum.org] 和 象形 文字 或 其 他 可 视 符 号 (比如 条 形 码 )， 特 别 是 那些 设计 成 可 被 远 处 的 照 
相机 读 取 的 符号 [de IPifa et al. 2002]。 这 些 标记 附着 在 要 确定 位 置 的 对 象 上 。 当 在 被 作用 范围 有 限 
且 位 置 已 知 的 阅读 器 发 现时 ， 目 标 对 象 的 位 置 也 就 可 知 了 。 

最 后 ，Easy Living 项 目 [Krumm et al. 2000] 使 用 视觉 算法 来 定位 对 象 ， 比 如 被 多 个 照相 机 观测 
的 一 个 人 。 一 个 目标 对 象 如 果 能 被 一 个 在 已 知 位 置 的 照相 机 识别 ， 它 就 可 以 被 定位 。 原 则 上 ， 如 
果 一 个 已 知 位 置 有 多 个 照相 机 ， 所 摄 图 片上 对 象 外 观 之 间 的 区 别 可 以 用 来 确定 对 象 的 物理 位 置 。 

正如 在 Cooltown 案 例 研究 ( 见 16.7.2 节 ) 中 将 要 介绍 的 ， 上 面 某 些 位 置 技术 (特别 是 自动 标识 
标记 和 红外 线 信 标 ) 通过 可 用 的 标识 符 ， 可 以 对 它们 所 依附 的 实体 的 信息 和 服务 进行 访问 。 

比较 以 上 技术 的 私密 性 ，GPS 解 决 方案 提供 了 绝对 的 私密 性 : GPS 操作 从 不 将 关于 接收 设备 的 
信息 传送 到 其 他 地 方 。 无 线 电信 标 能 提供 绝对 的 私密 性 ， 但 它 依赖 于 使 用 的 方式 。 如 果 设 备 只 是 
监听 信 标 ， 并 且 从 不 与 基础 设施 进行 其 他 的 通信 ， 那 么 可 以 保证 它 的 私密 性 。 相 比 之 下 ， 其 他 技 
术 属 于 跟踪 技术 。Active Bat、UWB、Active Badge 和 自动 标识 方法 都 产生 一 个 属于 基础 设施 的 标 
识 符 (在 已 知 的 地 点 、 已 知 的 时 间 给 出 )。 即 使 相关 的 用 户 没有 公开 他 们 的 身份 ， 也 能 推断 出 来 。 
Easy Living 的 视觉 技术 依赖 于 识别 出 用 户 并 定位 他 们 ， 所 以 用 户 的 身份 更 容易 暴露 。 

用 于 位 置 感 知 的 体系 结构 定位 系统 需要 的 两 个 主要 特征 是 ，(1) 用 于 位 置 感知 的 各 种 传感器 
的 类 型 的 一 般 性 ，(2) 关于 要 定位 对 象 的 数目 和 当 对 象 (比如 和 信和 车 辆 ) 移动 时 发 生 位 置 更 新 事 
件 的 速率 的 可 伸缩 性 。 研 究 人 员 和 开发 人 员 为 小 的 (单独 的 ) 智能 空间 (比如 覆盖 了 传感器 网 络 
的 房间 、 建 筑 物 或 自然 环境 ) 的 位 置 感知 设计 了 相应 的 体系 结构 ， 也 为 高 可 伸缩 地 理 信 息 系统 开 
发 了 相应 的 体系 结构 ， 该 系统 覆盖 广大 区 域 并 包含 大 量 对 象 的 位 置 。 

位 置 栈 [Hightower et al. 2002, Craumann et al. 2003] 用 来 满足 一 般 性 的 需求 。 它 将 用 于 单个 智 
能 空间 的 位 置 感知 系统 分 成 若干 层 。 传 感 器 层 包含 用 于 从 各 种 位 置 传感器 中 抽取 原始 数据 的 驱动 
程序 。 测 量 层 将 原始 数据 转化 为 常见 的 测量 类 型 (包括 距离 、 角 诬 和 速度 ) 。 融 合 层 是 应 用 程序 可 
用 的 最 低层 。 它 结合 来 自 不 同 传感器 (通常 是 不 同类 型 的 ) 的 测量 数据 ， 从 而 推断 对 象 的 位 置 ， 
并 通过 一 个 统一 接口 提供 给 应 用 。 因 为 传感器 产生 不 确定 的 数据 ， 所 以 对 融合 层 的 推理 是 基于 概 
率 的 。Fox 等 [2003] 概 述 了 可 用 的 贝 叶 斯 技术 。 安 排 层 推 断 出 对 象 间 的 关系 ， 比 如 它们 是 否 是 位 置 
相关 。 以 上 诸 层 是 为 了 合并 来 自 其 他 类 型 传感器 的 位 置 数据 ， 以 确定 较 复杂 的 上 下 文 属 性 ， 比 如 
一 栋 房 子 中 的 一 群 人 是 否 全 部 睡 着 了 。 

可 伸缩 性 是 地 理 信息 系统 关心 的 一 个 主要 方面 。 时 空 查询 说 明了 可 伸缩 性 需求 。 比 如 “最 近 
60 天 内 谁 住 在 这 座 楼 内 ?”,“ 是 否 有 人 跟着 我 ?” 或 者 “该 区 域内 哪 种 活动 的 对 象 最 容易 发 生 磁 
擅 ?” 就 是 时 空 查询 。 要 定位 的 对 象 数目 (尤其 是 移动 对 象 的 数目 ) 和 并 发 查询 的 数目 可 能 很 大 ， 
此 外 ， 上 述 查 询 的 最 后 一 个 例子 要 求实 时 响应 。 使 位 置 系统 具有 可 伸缩 性 的 一 个 简单 方法 是 使 用 
数据 结构 (比如 四 又 树 ) 递归 地 将 感 兴趣 的 区 域 分 成 子 区 域 。 这 种 时 空 数据 库 的 索引 技术 是 一 个 
热门 研究 领域 。 


16.4.4 小结 和 前 景 


本 节 描述 了 几 种 为 上 下 文敏 感 计算 而 设计 的 基础 设施 。 我 们 重点 讨论 了 如 何 利 用 传感器 产生 
应 用 所 依赖 的 上 下 文 属性 的 方法 。 我 们 介绍 了 用 于 静态 传感器 集合 的 体系 结构 和 用 于 高 易 变 传 感 
器 网 络 的 体系 结构 。 最 后 ， 我 们 描述 了 一 些 关于 位 置 感知 方面 的 技术 。 

通过 上 下 文敏 感 ， 我 们 将 日 常 物理 世界 与 计算 机 系统 集成 到 一 起 。 还 需要 解决 的 一 个 主要 问 
题 是 : 与 人 类 对 物理 世界 的 细微 理解 相 比 ， 我 们 描述 的 系统 有 些 粗糙 。 不 但 传感器 (至 少 是 那些 
足够 便宜 以 至 广泛 部 署 ) 不 可 避免 地 不 够 精确 ， 而 且 从 原始 传感器 数据 所 包含 的 丰富 信息 中 产生 
精确 的 语义 也 是 极其 困难 的 。 机 器 人 世界 (除了 感知 ， 它 还 包括 刺激 ， 这 是 我 们 忽略 的 一 个 话题 ) 
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解决 该 问题 已 经 好 多 年 了 。 在 严格 受 限 区 域内 ， 比 如 室内 吸尘器 清洁 或 工业 产品 ， 机 器 人 能 妥善 
地 执行 任务 。 但 是 从 受 限 领域 的 应 用 到 普遍 化 的 应 用 依然 是 很 困难 的 。 


16.5 安全 和 私密 性 


易 变 系统 引发 了 许多 新 的 安全 和 私密 性 问题 。 第 一 ， 易 变 系统 的 用 户 和 管理 员 要 求 他 们 的 数 
据 和 资源 具有 安全 性 (机密 性 、 完 整 性 和 可 用 性 )。 但 是 ， 正 如 我 们 在 16.1 节 描述 易 变 系统 的 模型 
时 所 指出 的 ， 在 易 变 系统 中 ， 信 任 度 ( 所 有 安全 性 的 基础 ) 经 常 被 降低 。 降 低 信 任 度 是 因为 组 件 
自发 交互 的 法 则 少 ， 如 果 只 有 很 少 关于 对 方 的 先 验 知识 ， 则 可 能 没有 共同 的 可 信任 的 第 三 方 。 第 
二 ， 很 多 用 户 关心 他 们 的 私密 性 。 粗 略 地 讲 ， 是 他 们 控制 对 自身 信息 访问 的 能 力 。 但 是 由 于 在 智 
能 空间 中 能 感知 用 户 经 过 ， 因 此 私密 性 比 以 前 更 可 能 受到 威胁 。 

尽管 存在 这 些 挑战 因素 ， 但 确保 人 们 的 安全 和 私密 性 的 措施 必须 是 轻 量 级 的 ， 一 方面 是 为 了 
保存 交互 的 自发 性 ， 另 一 方面 由 于 很 多 设备 的 用 户 界面 条 件 有 限 。 例 如 ， 在 办 公 室内 使 用 智能 笔 
之 前 ， 人 们 不 想 “ 登 录 ” 到 智能 笔 。 

本 节 我 们 将 概述 易 变 系统 的 安全 和 私密 性 的 几 个 主要 问题 。Stajano[2002] 给 出 了 一 些 问题 的 较 
详细 的 处 理 措施 。Langheinrich[2001] 从 历史 的 和 法 律 的 角度 上 分 析 了 无 处 不 在 计算 的 私密 性 问题 。 


16.5.1 背 昧 


由 于 与 硬件 相关 的 问题 ， 比 如 资源 缺乏 ， 安 全 和 私密 性 在 易 变 系统 中 是 很 复杂 的 ， 并 且 由 于 
它们 的 自发 性 导致 了 新 型 的 资源 共享 。 

硬件 相关 的 问题 传统 的 安全 协议 往往 基于 对 设备 和 连通 性 的 假设 ， 这 些 假设 在 易 变 系统 中 是 
不 成 立 的 。 第 一 ,便携 设备 (比如 PDA、 手 机 和 传感器 节点 ) 通常 比 PC 类 的 设备 更 容易 被 偷 和 受 
到 干扰 (即使 在 锁 着 的 房间 里 )。 易 变 系统 的 安全 性 设计 应 该 不 依赖 于 任何 容易 失效 的 设备 子 集 的 
完整 性 。 例 如 ， 如 果 智 能 空间 跨越 一 个 足够 大 的 物理 区 域 ， 那 么 保护 系统 整体 完整 性 的 一 种 方法 
是 : 让 攻击 者 必须 在 大 约 同一 时 间 访 问 它 内 部 的 许多 位 置 ， 否 则 攻击 不 可 能 成 功 。 

第 二 ， 易 变 系统 中 的 设备 有 时 没有 是 够 的 计算 资源 用 于 非 对 称 〈 公 钥 ) 加 密 ， 即 使 使 用 椭圆 
曲线 加 密 也 是 如 此 ( 见 7.3.2 节 )。SPINS[Perrig et al.2002] 为 无 线 传感器 网 络 中 的 低 功 率 节 点 在 有 
带 在 攻击 的 环境 中 交换 数据 提供 安全 性 保证 。 该 协议 只 使 用 对 称 密 钥 加 密 ， 与 非 对 称 密 钥 加 密 不 
同 ， 它 在 那些 低 功率 的 设备 上 使 用 方便 。 然 而 ， 它 避 开 了 下 面 的 问题 : 无 线 传感器 网 络 中 的 哪个 
节点 应 该 共享 相同 的 对 称 密 钥 。 一 种 极端 情况 是 ， 如 果 所 有 节点 共享 相同 的 密 钥 ， 那 么 在 一 个 节 
点 上 攻击 成 功 将 毁 掉 整个 系统 。 另 一 种 极端 情况 是 ， 如 果 每 个 节点 享有 一 个 不 同 于 其 他 所 有 节点 
的 密 钥 ， 那 么 将 有 太 多 的 密 钥 要 保存 在 只 有 有 限 内 存 的 节点 中 。 一 个 折 圳 方案 是 节点 只 与 距离 它 
最 近 的 邻居 共享 密 钥 ,并且 依赖 于 成 熟 的 可 信赖 节点 链 ， 该 链 对 消息 按 跳 加 密 ， 而 不 是 使 用 端 对 
端的 加 密 。 

第 三 ， 和 之 前 一 样 ， 能 量 也 是 个 问题 。 不 但 要 使 安全 协议 尽量 减少 通信 和 负荷 以 延长 电池 的 使 
用 时 间 ， 而 且 有 限 的 能 量 是 一 种 新 型 拒绝 服务 攻击 的 基础 。Stajano 和 Andersonf1999] 描 述 了 在 电池 
供 能 的 节点 上 的 “睡眠 剥夺 折磨 攻击 " ， 攻 击 者 可 以 通过 发 送 伪造 的 消息 使 设备 耗 尽 它们 的 电能 
(因为 设备 在 接收 消息 时 要 消耗 能 量 ) ， 以 此 完成 拒绝 服务 的 攻击 。Martin 等 [2004] 描 述 了 更 进一步 
的 “ 睡 根 剥夺 ”攻击 ， 包 括 隐蔽 地 给 设备 提供 数据 和 代码 来 浪费 设备 的 资源 。 例 如 ， 攻 击 者 可 以 
提供 一 个 GIF 动 画 ， 对 用 户 而 土 ， 它 看 起 来 是 静 坊 的 ， 但 实际 上 需要 反复 泻 染 。 

最 后 ， 断 链 操作 意味 着 最 好 不 要 使 用 依赖 于 持续 在 线 访问 服务 器 的 安全 协议 。 例 如 ， 假 设 休息 
站 的 自动 售 货 机 内 为 某 公交 公司 的 乘客 提供 免费 的 点 心 和 人 饮料。 与 其 假设 这 样 的 机 器 总 是 要 连接 到 
公司 的 总 部 来 验证 权限 ， 不 如 设计 出 一 个 协议 ， 给 用 户 设备 (比如 手机 ) 发放 一 个 证 书 使 得 自动 售 
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货机 使 用 蓝牙 或 其 他 短程 通信 手段 来 验证 权限 [Zhang and Kindberg2002]。 遗 憾 的 是 ， 不 使 用 在 线 
服务 器 意味 着 证 书 不 能 撤回 , 只 能 设计 一 个 过 期 时 间 来 解决 这 个 问题 , 但 这 又 会 产生 一 个 新 的 问题 
离线 设备 如 何 安 全 地 保证 精确 的 时 间 。 

新 型 资源 共享 .问题 例子 易 变 系统 引发 了 新 型 的 资源 共享 ， 这 需要 新 的 安全 性 设计 ， 如 下 面 
的 例子 所 示 。 

“ 智能 空间 的 管理 者 使 得 访问 者 可 以 通过 无 线 网 络 访问 服务 ， 例 如 发 送 幻灯 片 到 会 议 室 的 投影 

仪 或 使 用 咖啡 屋内 的 打印 机 。 

“ 同一 公司 的 在 会 议 上 遇见 的 两 个 员工 可 以 在 他 们 的 手机 或 其 他 便携 设备 之 间 通 过 无 线 连接 交 

换文 档 。 

“ 护士 从 一 个 类 似 盒子 的 设备 中 取出 一 个 无 线 心率 监控 器 ， 将 它 装 在 病人 身上 ， 并 且 将 它 关联 

到 诊所 中 该 病人 的 数据 日 志 服务 上 。 

这 些 事例 都 是 自发 互 操作 例子 ， 每 个 例子 都 提出 了 安全 或 私密 性 问题 。 它 们 与 在 有 防火 墙 保 
护 的 企业 内 部 网 或 者 开放 的 因特网 上 的 资源 共享 模式 不 同 。 

投影 服务 和 打印 服务 只 能 由 访问 者 使 用 ， 但 无 线 网 络 可 能 越 出 建筑 物 的 边界 ， 这 样 攻击 者 可 
以 窃听 、 和 干扰 展示 或 发 送 伪造 的 打印 任务 。 所 以 ， 服 务 需要 保护 ， 类 似 于 Web 服 务 器 只 为 俱乐部 
成 员 服务 。 但 是 登录 (输入 用 户 名 和 密码 ) 和 处 理 登 录 的 注册 过 程 开 销 比较 大 。 此 外 ， 用 户 可 能 
会 出 于 私密 性 考虑 而 反对 。 

两 个 员工 间 的 文档 交换 在 某 些 方面 类 似 于 在 公司 内 部 网 内 发 送 一 封 邮 件 。 这 种 交互 通过 一 个 
公共 的 无 线 网 络 发 生 在 一 个 几乎 充满 卫生 人 的 地 方 。 原 则 上 存在 可 信任 的 第 三 方 〈 员 工 所 在 公司 )， 
但 实际 上 第 三 方 可 能 不 可 达 (在 会 议 室 ， 员 工 的 手机 也 许 不 能 得 到 足够 好 的 无 线 电 通信 信号 ) 或 
者 第 三 方 可 能 没有 配置 在 所 有 用 户 的 设备 上 。 

护士 的 工作 在 某 些 方面 类 似 于 第 一 个 例子 ( 指 访问 者 可 以 使 用 一 个 投影 仪 或 打印 机 ) ， 她 可 以 
临时 但 安全 地 使 用 一 个 可 信任 的 设备 。 但 是 这 个 例子 要 强调 的 是 重用 问题 。 可 能 有 很 多 的 无 线 传 
感 器 在 不 同 的 时 间 用 于 不 同 的 病人 ， 如 何 安全 地 在 设备 和 各 个 病人 日 志 间 建立 和 打破 关联 是 最 基 
本 的 问题 。 


16.5.2 一 些 解决 办 法 


为 了 解决 在 易 变 系统 中 提供 安全 和 私密 性 的 问题 ， 我 们 现在 来 看 一 下 已 有 的 尝试 ， 安全 自发 
设备 关联 、 基 于 位 置 的 认证 和 私密 性 保护 。 我 们 将 要 描述 的 安全 技术 很 明显 地 脱离 了 分 布 式 系统 
的 标准 方法 。 它 们 利用 了 如 下 事实 : 我 们 考虑 的 系统 被 集成 到 了 日 常 的 物理 世界 中 ， 是 通过 使 用 
物理 证 据 而 不 用 密码 学 证 据 来 自 提升 安全 性 特性 。 

安全 自发 设备 关联 前 面 例子 提出 的 一 个 重要 问题 是 如 何在 通过 无 线 电网 络 W (蓝牙 或 802.11) 
相连 的 两 个 设备 间 保 护 自发 关联 。 这 就 是 安全 自发 设备 关联 问题 ， 也 称 为 安全 短暂 关联 问题 。 目 
标 是 通过 在 两 个 设备 间 安全 地 交换 会 话 密 钥 并 使 用 该 密 钥 来 加 密 W 上 的 通信 来 创建 安全 通道 。 因 
为 关联 是 自发 的 ， 所 以 首先 要 假设 设备 (或 它 的 用 户 ) 既 不 与 其 他 设备 共享 密 钥 ， 也 没有 其 他 设 
备 的 公 钥 ， 并 且 设 备 也 不 访问 可 信任 的 第 三 方 。 即 使 可 信任 的 第 三 方 存在 ， 它 也 有 可 能 是 脱 机 的 。 
攻击 者 可 能 试图 在 W 上 窃听 ， 并 重播 或 合成 消息 。 特 别 是 攻击 者 可 能 试图 发 起 一 个 中 间 人 攻击 
( 见 7.1.1 节 )。 

该 问题 的 解决 方法 能 够 使 访问 者 安全 连接 到 投影 仪 或 打印 服务 ， 参 加 会 议 的 同事 能 够 安全 地 在 
他 们 的 携带 设备 闻 交 换文 档 ， 护 士 能 够 安全 地 通过 病床 将 无 线 心率 监控 器 连接 到 数据 日 志 装 置 上 。 

W 上 的 任何 通信 都 不 能 完成 安全 密 钥 交换 ， 所 以 需要 紧急 通信 。 特 别 地 ， 在 以 蓝牙 连接 的 两 
个 设备 间 建 立 链 路 层 密 钥 的 标准 方法 依赖 于 多 个 用 户 的 紧急 控制 动作 。 在 一 个 设备 上 选择 的 数字 
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串 必须 由 用 户 在 其 他 设备 上 输入 。 但 是 这 种 方法 通常 不 会 安全 地 实施 ， 因 为 简单 的 短 数字 串 ( 例 
如 “0000”) 易于 被 攻击 者 通过 穷 举 搜索 而 得 到 。 

另 一 种 解决 安全 关联 问题 的 方法 是 使 用 带 有 一 定 物理 特性 的 侧 通 道 。 特 别 地 ， 经 由 此 侧 通道 
传播 的 信号 在 角度 、 范 围 或 时 序 (或 它们 的 某 种 组 合 ) 上 会 受到 限制 。 为 了 尽 可 能 接近 ， 我 们 可 
以 推断 出 此 通道 上 消息 的 发 送 者 和 接收 者 的 特性 ， 这 使 得 我 们 能 够 使 用 一 种 物理 可 示范 的 设备 
(我 们 下 面 将 介绍 ) 建立 安全 关联 。Kindberg 等 [2002b] 称 它们 为 物理 受 限 通道 ， 我 们 在 本 书 中 使 
用 此 术语 ，Balfanz 等 [2002] 称 之 为 有 限 位 置 通道 。Stajano 和 Anderson[1999] 首 先 以 物理 关联 的 形式 
开发 了 此 种 侧 通道 。 在 16.2.2 节 介绍 物理 设备 关联 的 时 候 ， 我 们 介绍 了 这 些 通道 的 几 个 例子 。 

在 一 个 场景 中 ， 某 个 设备 产生 一 个 新 会 话 密 钥 ， 并 通过 接收 受 限 通道 将 它 发 送 到 其 他 设备 ， 
接收 受 限 通道 提供 一 定 程 度 的 安全 性 。 也 就 是 说 ， 它 限制 哪些 设备 可 以 接收 密 钥 。 下 面 是 用 于 属 


于 接收 受 限 通道 的 一 些 技术 : @ 
*“ 物 理 接 触 。 每 个 设备 有 终端 来 进行 直接 电 es K D> 
子 连 接 [Stajano and Anderson 1999]， 如 人 1 @! 
图 16-10 所 示 。 a) 通过 物理 接触 交换 新  b) 在 W 上 使 用 K 构 建安 
。 红 外 线 。 红 外 线 方向 在 60" 以 内 ， 但 会 被 会 话 密 钥 K 全 通道 的 设备 通信 
墙壁 和 窗户 大 大 削弱 。 用 户 可 以 通过 红 图 16-10 使 用 物理 接触 的 安全 设备 关联 


外 线 传 送 密 钥 给 距离 1 米 之 内 的 接收 设备 [Balfanz et al. 2002] 。 

* 音 频 。 数 据 可 以 作为 一 种 音频 信号 (例如 在 房间 内 轻柔 地 播放 的 音乐 ) 的 调制 传送 ， 但 它 传 

送 的 距离 很 短 [Madhavapeddy et al. 2003]。 

。 激 光 。 一 个 用 户 将 设备 的 携带 数据 的 罕 激 光束 指向 另 一 个 设备 上 的 接收 器 来 传送 数据 

[Kindberg and Zhang 2003a]。 该 方法 具有 比 其 他 远程 技术 具有 更 高 的 精确 度 。 

。 条形码 和 照相 机 。 一 个 设备 在 它 的 屏幕 上 将 密 钥 显示 成 条 形 码 (或 其 他 可 解码 的 图 像 )， 另 

一 个 设备 〈 带 有 摄像 头 ， 比 如 可 拍照 手机 ) 读 取 并 解码 。 该 方法 的 精确 度 与 设备 间 的 距离 成 

反比 。 

通常 ， 物 理 上 受 限 的 通道 只 提供 有 限 的 安全 性 。 具 有 高 灵敏 度 接收 器 的 攻击 者 就 能 以 红外 线 
或 音频 窃听 ， 具 有 功能 强大 的 照相 机 的 攻击 者 可 以 读 取 条 形 码 (即使 在 小 屏幕 上 ) 。 激 光 会 受 大 气 
散射 的 限制 ， 尽 管 量子 调制 技术 可 以 使 得 发 散 的 信号 对 窃听 者 没有 用 处 [Gibson et al.2004]。 然 而 ， 
当 技 术 部 署 在 合适 的 环境 中 时 ， 攻 击 者 就 需要 付出 极 大 的 努力 才能 完成 攻击 ， 这 样 的 安全 性 足以 
满足 日 常 工作 的 需要 。 

第 二 种 用 于 安全 交换 会 话 密 钥 的 方法 是 使 用 受 限 通道 在 物理 上 认证 设备 的 公 钥 ， 并 将 它 发 送 
给 其 他 设备 。 之 后 设备 参与 到 一 个 标准 协议 中 ， 使 用 认证 的 公 钥 以 交换 会 话 密 钥 。 当 然 ， 该 方法 
假定 设备 功能 足够 强大 ， 可 以 执行 公 钥 加 密 。 

对 于 设备 而 言 ， 认 证 公 钥 最 简单 的 方法 是 将 它 通 过 一 个 发 送 受 限 通道 发 送出 去 ， 这 使 用 户 能 
够 认证 密 钥 是 从 物理 设备 中 得 到 的 。 有 几 种 方法 实现 发 送 受 限 通 道 。 例 如 ， 物 理 接触 提供 了 一 个 
发 送 受 限 通道 ， 因 为 只 有 一 个 直接 连接 的 设备 可 以 在 该 通道 上 发 送 。 习 题 16.14 将 请 读者 考虑 以 上 
描述 的 哪个 接收 受 限 通道 技术 也 提供 发 送 受 限 通道 。 此 外 ， 如 何 使 用 一 个 接收 受 限 通 道 实 现 一 个 
发 送 受 限 通道 ， 或 者 反之 亦 然 。 见 习题 16.15 。 

对 于 设备 而 言 ， 第 三 种 实现 物理 受 限 通 道 的 方法 是 最 优化 地 但 不 安全 地 交换 会 话 密 钥 ， 之 后 使 


“用 物理 受 限 通道 来 验证 密 钥 。 也 就 是 说 ， 使 用 物理 受 限 通道 来 证 实 密 钥 只 由 所 请 求 的 物理 源 拥 有 。 


首先 ， 我 们 考虑 如 何 用 自发 但 可 能 包含 错误 的 方式 交换 会 话 窗 钥 ， 随 后 介绍 几 种 技术 来 验证 
交换 。 如 果 验 证 失败 ， 那 么 过 程 还 可 以 重复 。 
在 16.2.2 节 中 ， 我 们 描述 了 用 于 关联 两 个 设备 的 物理 的 和 由 人 控制 的 技术 。 比 如 两 按钮 协议 ， 
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当 人 按 下 设备 上 的 按钮 时 ， 设 备 几 乎 同时 交换 它们 的 网 络 地 址 。 可 以 方便 地 修改 ， 使 设备 使 用 
Diffie-Hellman 协 议 [Diffie and Hellman 1976] 交 换 会 话 密 钥 ， 但 是 ， 该 方法 是 不 安全 的 ， 由 于 同时 
运行 该 协议 ， 单 独 的 用 户 组 仍 有 可 能 意外 地 错误 关连 设备 ， 并 且 怀 有 恶意 的 团体 仍 有 可 能 发 起 中 
间 人 攻击 。 

以 下 技术 使 得 我 们 在 使 用 前 验证 密 钥 。 尽 管 也 使 用 接收 受 限 通道 ， 但 它们 也 涉及 发 送 受 限 通 
道 (见习 题 16.15)。 中 间 人 不 能 (几乎 不 可 能 ) 同 每 个 设备 交换 相同 的 密 钥 ， 这 是 Diffie-Hellman 
协议 的 一 个 特性 。 所 以 ， 我 们 可 以 通过 比较 两 个 设备 运行 Diffie-Heliman 协 议 后 得 到 的 密 钥 的 安全 
散 列 值 来 验证 关联 ( 见 图 16-11)。 
Eee 


2. 用 户 比较 显示 在 设备 上 的 密 钥 的 散 列 
中 间 人 值 一 通过 视觉 或 者 一 个 综合 的 成 像 
设备 。 由 于 它们 不 -一致 ， 用 户 断 定 有 


y 中 间 人 ， 或 者 意外 地 发 生 了 错误 关联 
le 






1. 通过 Diffie-Hellman 
协议 交换 密 钥 “一 一 ~ 


设备 显示 密 钥 的 散 列 值 
图 16-11 检测 中 间 人 


。 显 示 的 散 列 值 。Stajano 和 Anderson 指 出 ， 每 种 设备 都 可 以 以 十 六 进 制 字符 或 其 他 人 工 可 以 比 

较 的 形式 显示 它 的 公 钥 的 散 列 值 。 然 而 ， 他 们 认为 这 种 人 为 参与 的 类 型 很 有 可 能 产生 错误 。 

上 面 的 条 形 码 方法 可 能 更 可 靠 。 该 方法 是 使 用 发 送 受 限 通道 的 另 一 个 例子 : 一 个 设备 的 显示 

屏 和 接近 条 形 码 的 另 一 个 设备 的 摄像 头 间 的 光路 安全 地 从 所 请 求 的 设备 传播 安全 散 列 值 。 

。 超 声波 。 通 过 使 用 类 似 于 16.4.3 节 描述 的 Active Bat[Kindberg and Zhang 2003b] 使 用 的 技术 ， 

将 超声 波 信号 与 无 线 电 信号 结合 ， 可 以 推断 发 送 散 列 值 的 设备 的 距离 和 方向 。 

考虑 以 上 方法 ， 由 于 受 限 通道 的 特性 ， 它 们 提供 的 安全 性 的 程度 是 不 同 的 ， 但 是 所 有 方法 都 
适合 于 自发 关联 。 没 有 一 个 方法 要 求 在 线 访问 其 他 组 件 。 没有 一 个 方法 要 求 用 户 去 认证 他 们 自己 
或 查找 设备 的 电子 名 称 或 标识 符 ， 相 反 ， 要 向 用 户 提供 关于 哪个 设备 已 安全 关联 的 物理 证 据 。 通 
过 假设 ， 用 户 已 在 那些 设备 (和 它们 的 用 户 ) 中 建立 了 信任 。 当然 ， 已 获得 的 安全 性 只 是 同 设备 
涉及 的 可 信任 性 一 样 :可 能 将 一 个 设备 “安全 地 关联 ” 到 另 一 个 实际 上 发 起 攻击 的 设备 上 。 

Stajano 和 Aderson[1999，Stajano 2002] 在 “复活 鸭 ” 协议 的 上 下 文中 使 用 了 物理 受 限 通道 。 该 
协议 与 无 线 心 率 监控 器 的 例子 是 相关 的 ， 在 那个 例子 中 ， 儿 个 同样 的 设备 在 病人 间 关 联 或 重新 关 
联 。 该 协议 的 名 字 指 下 面 的 事实 : (实际 的 ) 鸭 在 可 盖 印 的 状态 下 开始 ， 随 后 受 控 于 任何 它们 首先 
认 出 的 实体 (理想 情况 下 ， 是 它们 的 母亲 ! )}， 该 过 程 称 为 盖 印 。 在 我 们 的 情况 中 ,“ 鸭 ”设备 受 
控 于 第 一 个 与 它 关联 的 设备 ， 并 且 之 后 拒绝 来 自任 何其 他 实体 的 请 求 ， 也 就 是 在 盖 印 时 不 知道 
鸭 ” 与 它 的 “母亲 ”交换 的 密 钥 的 主体 。 重 新 关联 只 能 通过 先 “ 杀 死 该 鸭 的 灵魂 ”来 进行 例如， 
当 “ 和 母亲” 指示 “网” 重新 呈现 可 盖 印 的 状态 ,该 情况 下 它 的 记忆 被 安全 地 擦 除了 。 从 这 一 点 看 ， 
“ 鸭 ” 准 备 受 控 于 下 一 个 与 它 关 联 的 设备 。 

基于 位 置 的 认证 访问 者 使 用 会 议 室 的 投影 服务 以 及 用 户 在 咖啡 店 打印 文档 的 例子 可 以 从 访问 
者 和 管理 者 两 个 角度 来 看 。 从 访问 者 角度 看 ， 他 们 可 以 使 用 前 面 介 绍 的 一 种 物理 受 限 通 道 安全 地 
将 他 们 的 设备 关联 到 投影 仪 或 打印 机 上 ， 从 而 保护 数据 的 私密 性 和 完整 性 (尽管 在 咖啡 店内 打印 
敏感 的 文档 是 不 明智 的 ) 。 

但 是 那些 智能 空间 的 每 个 管理 者 都 有 附加 的 需求 ， 在 让 他 们 的 访问 者 享有 安全 性 的 同时 ， 他 
们 需要 实现 访问 控制 。 只 有 物理 上 位 于 他 们 空间 内 的 人 (会 议 室 的 讲演 者 ， 在 咖啡 店 喝 咖啡 的 人 ) 
才能 使 用 他 们 的 服务 。 可 是 ， 正 如 我 们 已 经 解释 过 的 ， 由 于 访问 者 私密 性 的 需求 和 管理 者 对 自发 
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出 现 和 消失 的 用 户 和 设备 集成 一 体 的 需要 ， 认 证 用 户 的 身份 可 能 是 不 合适 的 。 

满足 那些 需求 的 一 种 认证 方法 是 使 访问 控制 基于 服务 的 客户 的 位 置 ， 而 不 是 它们 的 身份 。 
Kindberg 等 [2002b] 描述 了 一 种 协议 ， 该 协议 为 了 认证 客户 的 位 置 ， 使 用 一 种 遍及 但 没有 超越 智能 
空间 的 物理 受 限 通道 。 例 如 ， 该 通道 可 以 使 用 咖啡 店内 播放 的 音乐 或 会 议 室内 的 红外 线 来 构建 。 还 
有 一 个 戏 人 相应 智能 空间 ( 即 直接 连接 到 同一 个 受 限 通道 ) 的 位 置 认 证 代理 ， 位 置 特 定 的 服务 信任 
该 代理 。 例 如 ，Acme 咖 啡 公司 想 通 过 它们 的 连锁 店 让 它们 的 客户 免费 下 载 多 媒体 信息 作为 奖励 ， 
但 是 又 希望 保证 Acme 啤 啡 店 外 的 任何 人 都 不 可 以 访问 该 多 媒体 信息 ， 即 使 下 载 服务 是 集中 的 并 且 
连接 到 因特网 。 该 协议 假定 用 户 通过 Web 浏 览 器 访问 服务 并 使 用 Web 重 定向 ， 这 样 访问 者 的 设备 从 
位 置 认证 代理 可 透明 地 得 到 证 实 ( 即 客户 设备 位 于 它 所 声明 的 位 置 )， 并 将 它 转 发 给 目标 服务 。 

Sastry 等 [2003] 使 用 由 超声 波 实 现 的 临时 受 限 通 道 验证 位 置 声明 。 该 协议 的 基础 是 ， 因 为 声 
波 的 速度 是 物理 受 限 的 ， 在 应 答 包 含 在 请 求 包 中 的 信息 时 ， 只 有 一 个 恰好 声明 在 此 的 设备 可 以 通 
过 超声 波 (足够 快 地 ) 传送 消息 到 目的 地 。 

同安 全 设备 关联 相 比 ， 位 置 认 证 只 能 在 有 限 的 程度 上 保护 系统 的 安全 。 即 使 服务 已 证 实 客户 
在 一 个 真实 的 位 置 ， 该 客户 也 可 能 仍然 是 恶意 的 或 者 作为 其 他 位 置 客 户 的 代理 。 

私密 性 保护 ”基于 位 置 的 认证 进行 了 权衡 ， 这 种 权衡 使 得 保护 易 变 系统 的 私密 性 变 得 很 难 ， 即 
使 用 户 拒绝 提供 他 们 的 身份 ， 他 们 也 会 暴露 与 其 他 类 型 的 汶 在 标识 信息 的 无 意 关 联 的 位 置 。 用 户 
信息 流 经 的 所 有 通道 都 需要 安全 措施 。 例 如 ， 即 使 用 户 在 嘿 啡 店 匿名 地 访问 电子 服务 ， 他 们 的 私 
密 性 也 可 能 被 破坏 (如 果 照 相机 捕捉 到 的 话 )。 如 果 用 户 需 要 为 一 项 服务 支付 费用 ， 那 么 他 们 必须 
提供 电子 支付 细节 ， 即 使 通过 第 三 方 来 完成 这 项 工作 。 他 们 也 可 能 要 购买 那些 需要 运送 到 他 们 指 
定 地 址 的 货物 。 

在 系统 层 中 ， 最 基本 的 威胁 是 ， 当 用 户 走 进 智 能 空间 并 访问 其 中 的 服务 时 ， 用 户 会 有 意 地 或 
无 意 地 提供 各 种 各 样 的 标识 符 。 第 一 ， 他 们 在 访问 服务 时 可 能 提供 名 字 和 地 址 。 第 二 ， 他 们 个 人 
设备 上 的 蓝牙 或 IEEE802.11 网 络 接口 都 有 一 个 固定 的 MAC 野 地 址 ， 读 地 址 对 其 他 设备 (比如 接 入 
点 ) 是 可 见 的 。 第 三 ， 如 果 用 户 携带 标记 ， 比 如 RFID 标 记 ( 例 如， 搬入 到 衣服 中 的 RFID 标 记 使 智 
能 洗衣 机 能 够 自动 的 选择 一 种 合适 的 洗衣 周期 )， 那 么 智能 空间 可 以 潜在 地 在 门口 和 其 他 “关键 点 ” 
感知 那些 标记 。RFID 是 全 局 唯一 的 ， 除 了 用 于 跟踪 外 ， 还 可 以 用 于 识别 用 户 的 什么 物品 带 有 该 标 
记 【〈 比 如 他 们 穿 的 衣服 类 型 ) 。 

无 论 标识 符 的 来 源 是 什么 ， 在 给 定时 间 内 它们 都 可 以 与 一 个 位 置 和 一 个 活动 关联 ， 这 样 就 可 
以 融 在 地 关联 用 户 的 个 人 信息 。 在 智能 空间 中 的 用 户 可 能 窃听 并 收集 标识 符 ， 如 果 他 们 与 智能 空 
间 (或 伐 和 人 到 智能 空间 的 服务 ) 串通 ， 那 么 他 们 就 可 以 跟踪 标识 符 ， 推 断 出 用 户 的 活动 ， 所 有 这 
些 都 有 可 能 导致 私密 性 的 丧失 。 

科学 家 们 正在 如 何 把 当前 的 “ 硬 ” 标 识 符 (比如 无 线 MAC 地 址 和 RFID) 做 成 “ 软 ” 地 址 ， 这 
些 软 地 址 可 以 时 不 时 被 替代 以 阻止 追踪 。 改 变 MAC 地 址 (和 更 高 层 的 网 络 地 址 ， 比 如 IP 地 址 ) 的 
困难 在 于 会 导致 通信 中 断 ， 这 就 要 在 它 和 私密 性 之 间 进 行 权衡 [Gruteser and Grunwald 2003]。 改 变 
RFID 的 困难 在 于 ， 虽 然 生成 RFID 的 用 户 不 想 被 “错误 ”的 传感器 跟踪 ， 但 用 户 希 望 他 们 的 RFID 
标记 被 某 些 “正确 ”的 传感器 读 取 (比如 他 们 洗衣 机 内 的 传感器 ) 。 解 决 该 问题 的 技术 是 对 于 标记 
使 用 〈 单 向 ) 散 列 函数 ， 代 替 已 存储 的 标识 符 和 每 次 读 取 它 时 给 出 的 标识 符 [Ohkubo et al 2003]。 
只 有 一 个 知道 标记 的 原始 唯一 标识 符 的 可 信赖 方 能 够 使 用 发 出 的 标识 符 来 证 实 哪 个 标记 被 读 取 。 
此 外 ， 因 为 标记 通过 一 个 单 向 散 列 函数 在 给 出 它们 前 传递 它们 存储 的 标识 符 ， 所 以 攻击 者 不 能 
(除非 他 们 纂 改 了 标记 ) 获得 存储 的 标识 符 ， 也 不 能 欺骗 标记 。 例 如 ， 故 音 错 误 地 声称 一 个 带 标记 
的 用 户 出 现在 犯罪 现场 。 

考虑 客户 提供 给 服务 的 软件 标识 符 ， 维 护 私密 性 的 一 种 显而易见 的 方法 是 要 么 用 一 个 匿名 标 
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识 符 (为 每 个 服务 请 求 随机 送 择 的 ) 要 么 用 一 个 假名 来 替代 。 假 名 是 一 个 不 真实 的 标识 符 ， 但 是 [o3] 
在 一 段 时 间 内 一 直 用 于 同一 个 客户 主体 。 假 名 相对 于 匿名 标识 符 的 优势 是 它 使 客户 在 不 必 暴 露 真 
实 身份 就 可 与 给 定 服务 建立 一 种 信任 的 关系 。 

对 于 用 户 来 说 ， 管 理 匿名 或 假名 标识 符 太 麻烦 ， 所 以 这 项 工作 通常 由 一 个 称 为 私密 性 代理 的 
系统 组 件 完 成 。 私 窗 性 代理 是 一 个 用 户 信任 的 可 以 将 所 有 服务 请 求 都 匿名 发 送 的 组 件 。 每 个 用 户 
设备 有 一 个 到 私密 性 代理 的 安全 的 专用 通道 。 该 代理 将 服务 请 求 中 所 有 的 真实 标识 符 用 匿名 标识 
符 或 假名 代替 。 

私密 性 代理 的 一 个 问题 是 它 是 被 攻击 的 中 心 ， 如果 代理 被 击破 ， 那 么 所 有 的 客户 服务 将 被 泄 
露 。 另 一 个 问题 是 代理 不 会 隐藏 用 户 访问 了 哪个 服务 。 一 个 窃听 者 或 一 群 窃听 者 可 以 使 用 流量 分 
析 ， 即 观察 流向 或 流出 一 个 特定 用 户 设备 的 消息 和 流向 或 流出 一 个 特定 服务 的 消息 间 的 流量 的 相 
关 性 ， 检 查 消息 的 时 序 和 大 小 等 因素 。 

混合 是 一 种 统计 技术 ， 它 以 一 种 攻击 者 很 难 整 理 出 用 户 的 动作 规律 的 方式 ， 综 合 来 自 许多 用 
户 的 通信 ， 从 而 维护 用 户 的 私密 性 。 混 合 的 一 个 应 用 是 构建 代理 的 一 个 重 到 网 络 ， 在 消息 进入 网 
络 以 后 ， 代 理 对 消息 加 窗 、 聚 集 、 重 排 以 及 在 它们 之 间 使 用 多 跳 传送 消息 ， 从 而 对 服务 或 客户 而 
言 ， 很 难 在 来 自 客户 或 服务 的 进入 网 络 的 消息 和 离开 网 络 的 消息 间 建 立 联 系 [Chaum 1981]。 每 个 
代理 只 信任 它 的 邻居 ， 且 只 与 它们 共享 密 钥 。 没 有 攻破 所 有 代理 就 很 难 危害 到 网 络 。Al-Muhtadi 等 
[2002] 描 述 了 一 种 用 于 在 智能 空间 中 将 客户 的 消息 匿名 地 路 由 到 服务 的 体系 结构 。 

混合 的 另 一 种 应 用 是 利用 在 每 个 位 置 出 现 许 多 用 户 的 存在 来 隐 茂 用户 的 位 置 。Beresford 和 
Stajano[2003] 描 述 了 一 种 使 用 混合 地 带 隐 藏 用 户 位 置 的 系统 ， 混 合 地 带 是 一 个 用 户 不 会 访问 位 置 敏 
感 服务 的 区 域 ， 比 如 智能 空间 之 间 的 走廊 。 其 基本 思想 是 用 户 在 混合 地 带 内 改变 他 的 匿名 身份 ， 
在 那里 没有 任何 用 户 的 位 置信 息 。 如 果 混 合 地 带 足 够 小 并 且 有 足够 多 的 人 经 过 混合 地 带 ， 那 么 混 
合 地 带 可 以 扮演 一 个 类 似 于 匿名 代理 的 混合 网 络 的 角色 。 习 题 16.16 在 更 深层 次 上 考虑 了 混合 地 带 ， 


16.5.3 ”小结 和 前 景 


本 节 介 绍 了 在 易 变 系 统 中 提供 安全 性 和 私密 性 的 问题 ， 并 简要 介绍 了 几 种 尝试 性 的 解决 方案 ， 
包括 安全 自发 关联 、 基 于 位 置 的 认证 和 各 种 保护 私密 性 的 技术 。 广 泛 的 感知 、 与 硬件 有 关 的 问题 
(比如 资源 缺乏 ) 和 自发 关联 是 产生 困难 的 根源 。 感 知 增 加 了 用 户 对 私密 性 的 关注 ， 因 为 不 但 他 们 
的 服务 访问 被 监控 ， 而 且 他 们 的 位 置 等 基本 信息 也 被 监控 ， 与 硬件 有 关 的 问题 和 自发 性 限制 了 我 
们 提供 安全 方案 的 能 力 。 这 是 一 个 重要 的 研究 领域 : 安全 性 ， 尤 其 是 私密 性 可 能 成 为 使 用 易 变 系 Do4| 
统 的 障碍 。 


16.6 自 适应 


本 章 所 研究 的 易 变 系统 的 设备 在 处 理 能 力 、1/O 能 力 ( 比 如 屏幕 大 小 、 网 络 带宽 、 内 存 和 能 量 
容量 ) 方面 与 PC 相 比 ， 异 构 性 更 加 明显 。 由 于 我 们 为 设备 设 定 了 多 个 目标 ， 所 以 异 构 很 难 消除 。 
便携 和 傣 入 设备 的 不 同 要 求 意味 着 资源 (比如 能 量 和 屏幕 大 小 ) 最 缺乏 和 最 丰富 的 设备 之 间 有 着 
巨大 的 差别 (在 资源 上 仅 有 的 正面 总 体 趋势 是 逐渐 增 容 的 但 是 可 负担 得 起 的 持久 存储 [Want and 
Pering 2003]) 。 可 能 唯一 不 变 的 就 是 (运行 时 的 ) 变化 本 身 ， 运行 条 件 (如 可 用 的 带宽 和 能 量 ) 是 
易于 动态 变化 的 。 

本 节 将 介绍 自 过 应 系统 ， 它 们 基于 资源 变化 模型 ， 并 且 使 它们 的 运行 时 行为 适应 当时 的 资源 可 
用 性 。 自 适应 系统 的 目标 是 通过 允许 软件 在 上 下 文中 重用 以 容纳 异 构 (上下文 会 根据 一 些 因素 变化 ， 
这 些 因素 包括 设备 功能 和 用 户 偏好 )。 同 时 ， 通 过 适应 应 用 行为 但 不 辆 性 关键 的 应 用 特性 来 容纳 变 
化 的 运行 时 资源 条 件 。 但 是 ， 实 现 这 些 目标 是 极其 困难 的 。 本 节 给 出 了 自 适应 领域 的 一 些 特点 。 
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16.6.1 内 容 的 上 下 文敏 感 自 适 应 

在 16.3.1 节 ， 我 们 看 到 易 变 系统 的 某 些 设备 为 其 他 设备 提供 多 媒体 内 容 。 多 媒体 应 用 ( 见 第 17 
章 ) 通过 交换 或 传输 多 媒体 数据 (比如 图 像 、 音 频 和 视频 ) 运作 。 

交换 内 容 的 一 种 简单 办 法 是 ， 内 容 产生 者 向 所 有 内 容 应 用 设备 发 送 相同 的 内 容 ， 而 内 容 应 用 
设备 根据 它 的 需要 和 限制 对 内 容 进 行 适当 的 呈现 。 确 实 ， 该 方法 有 时 有 效 ， 只 要 内 容 被 指定 得 足 
够 抽象 ， 接 收 设备 就 总 能 找到 一 个 适合 它 需要 的 具体 表现 方法 。 

然而 ， 一 些 因素 (比如 带宽 限制 和 设备 异 构 ) 使 得 该 方法 通常 不 可 行 。 与 PC 不 同 ， 易 变 系统 
的 设备 接收 、 处 理 、 存 储 和 显示 多 媒体 内 容 的 能 力 差别 非常 大 。 它 们 屏幕 大 小 的 差异 (有 的 甚至 
没有 屏 攻 ) 会 导致 在 发 送 固 定 大 小 的 图 片 、 固 定 字体 的 文本 ， 以 及 固定 布局 的 内 容 时 得 到 不 满意 
的 结果 。 设 备 可 能 有 (也 可 能 没有 ) PC 机 所 应 有 的 其 他 类 型 的 JO: 键盘、 麦克 风 、 音 频 输出 设备 
等 。 即 使 一 个 设备 有 LO 硬件 来 呈现 某 种 形式 的 内 容 (比如 视频 )， 它 也 可 能 没有 某 种 编码 (例如 
MPEG 或 Quicktime) 所 需 的 软件 或 者 没有 足够 的 内 存 及 处 理 资 源 来 以 完全 的 保 真 度 (对 视频 信号 
而 言 指 全 分 辩 率 或 帧 率 ) 呈现 多 媒体 。 最 后 ， 设 备 可 能 具有 是 够 的 资源 来 呈现 给 定 的 内 容 ， 但 是 
如 果 设 备 的 带宽 太 低 ， 内 容 就 不 能 发 送 到 设备 (除非 内 容 被 适当 地 压缩 ) 。 

更 普遍 的 情况 是 ， 服 务 需 要 传送 到 给 定 设 备 的 内 容 是 上 下 文 的 一 个 功能 ， 媒体 制作 人 不 但 应 
该 考虑 应 用 设备 的 能 力 ， 还 要 考虑 设备 用 户 的 偏好 ， 以 及 他 或 她 的 任务 的 本 质 等 因素 。 例 如 ， 一 
个 用 户 可 能 更 希望 在 小 屏幕 上 显示 文本 而 不 是 图 像 ， 另 一 个 用 户 更 喜欢 音频 输出 而 不 是 视频 输出 。 
此 外 ， 服 务 传递 的 内 容 片 断 中 的 项 可 能 是 用 户 任务 的 一 个 功能 。 例 如 ， 某 一 区 域 的 地 图 上 的 特 入 
依赖 于 用 户 是 参观 景点 的 旅游 者 还 是 寻找 基础 设施 接 入 点 的 工作 者 而 确定 {Chalmers et al. 2004]。 
在 一 个 屏幕 大 小 有 限 的 设备 上 ， 如 果 地 图 只 包括 一 种 特征 类 型 ， 那 么 该 地 图 就 比较 易 读 了 。 

对 多 媒体 内 容 的 作者 来 说 ， 可 能 会 因为 开销 太 大 以 至 于 不 能 为 很 多 不 同 的 上 下 文 配置 各 自 的 
解决 方案 。 替 代 方 法 是 改变 最 初 的 数据 使 之 符合 一 种 适当 的 形式 ， 可 采用 的 手段 有 从 中 选择 、 从 
中 生成 内 容 或 对 其 进行 转换 ， 或 以 上 三 个 过 程 的 任何 结合 。 有 时 ， 原 始 数据 与 应 该 如 何 表示 它 无 
关 。 例 如 ， 数 据 可 能 是 XML 格式 ， 脚 本 是 扩展 样式 表 转 换 语 言 格式 (XSLT)， 它 用 于 在 给 定 的 上 
下 文中 创建 可 呈现 的 形式 。 在 其 他 情况 下 ， 原 始 数据 已 经 是 一 种 多 媒体 数据 ， 比 如 图 像 ， 在 这 种 
情况 下 ， 自 适应 过 程 称 为 转 码 。 自 适应 性 可 以 在 媒体 类 型 内 (例如 ， 选 择 地 图 数据 或 降低 图 像 的 
分 辩 率 ) 和 媒体 类 型 间 〈 例 如， 根据 用 户 的 偏好 或 根据 使 用 的 设备 是 有 屏幕 还 是 有 音频 输出 而 将 
文本 转化 成 语音 ， 反 之 亦 然 ) 发 生 。 

在 因特网 (特别 是 Web) 上 的 客户 /服务 器 系统 中 ， 内 容 自 适应 问题 已 得 到 很 多 的 关注 。Web 
模型 使 得 自 适 应 发 生 在 资源 丰富 的 基础 设施 上 (要 么 在 服务 本 身 中 ， 要 么 在 代理 中 ) ， 而 不 是 在 资 
源 缺 乏 的 客户 端 进行 自 适应 。HTTP 协 议 允 许 就 内 容 类 型 进行 协商 〈 见 4.4 节 ) : 客户 在 它 的 请 求 头 
中 为 它 可 以 接收 的 内 容 的 MIME 类 型 声明 偏好 ， 接 着 服务 器 设法 在 它 返回 的 内 容 中 匹配 这 些 偏 好 。 
但 是 该 机 制 对 于 上 下 文敏 感 自 适应 的 作用 很 有 限 。 例 如 ， 客 户 能 声明 可 接收 的 图 像 编 码 ， 但 不 能 
指定 设备 的 屏幕 大 小 。 万 维 网 联盟 (W3C) 通过 它 的 设备 独立 工作 小 组 [www.w3.XIX] 和 开放 移动 
联盟 (OMA) [www.openmobilealliance.org] 正 在 开发 标准 ， 通 过 这 些 标准 能 比较 详细 地 表达 设备 
的 功能 和 配置 。W3C 开 发 了 复合 功能 /偏好 设置 文件 (CC/PP) 使 得 不 同类 型 的 设备 可 以 描述 它们 
的 功能 和 配置 ， 比 如 屏幕 大 小 和 带宽 。OMA 的 用 户 代理 偏好 规约 为 手机 提供 了 CC/PP 词 汇 。 它 非 
常 详细 ， 以 至 于 对 某 一 给 定 设备 ， 它 的 大 小 能 达到 10KB 以 上 。 这 样 的 偏好 在 带宽 和 能 量 方面 显得 
太 过 昂贵 ， 以 至 于 不 能 同 请 求 一 起 发 送 ， 所 以 移动 手机 只 能 在 请 求 头 中 发 送 它 的 偏好 的 URL。 服 
务 器 检索 规约 以 获得 匹配 的 内 容 ， 并 且 为 了 将 来 的 使 用 ， 会 将 该 规约 缓存 起 来 。 

对 带宽 受 限 设 备 ， 一 类 很 重要 的 自 适应 是 类 型 特定 的 压缩 。Fox 等 [1998] 描 述 了 一 种 体系 结构 ， 
其 中 代理 在 服务 〈 它 可 能 是 或 可 能 不 是 Web 的 一 部 分 ) 和 客户 之 间 完 成 压缩 。 它 们 的 体系 结构 中 
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有 3 个 主要 特征 ， 

。 为 了 适应 有 限 带 宽 ， 压 缩 应 该 特定 于 媒体 类 型 但 会 有 损耗 。 这 样 语义 信息 可 用 来 决定 哪 种 媒 

体 特征 比较 重要 ， 应 予以 保留 。 例 如 ， 通 过 去 掉 颜 色 信息 来 压缩 图 像 。 

。 转 码 应 该 在 传输 中 进行 ， 因 为 静态 预先 准备 的 内 容 形式 不 会 提供 足够 大 的 灵活 性 去 处 理 动态 

数据 和 不 断 增加 的 客户 和 服务 器 组 合 的 情况 。 

。 转 码 应 该 在 代理 服务 器 上 进行 ， 这 样 客户 和 服务 器 两 者 都 无 需 关注 转 码 。 不 必 重 写 代码 ， 计 

算 密 集 的 转 码 活动 可 以 在 合适 的 可 伸缩 的 硬件 上 运行 〈 比 如 机 架 固 定 的 计算 机 集群 ) ， 从 而 

使 延迟 保持 在 可 接受 的 范围 内 。 

当 谈 论 到 易 变 系统 (比如 智能 空间 ) 时 ， 我 们 要 回顾 一 下 为 Web 和 其 他 因特网 规模 的 自 适 应 
作出 的 一 些 假设 。 易 变 系统 的 要 求 更 加 苛刻 ， 因 为 它们 可 能 要 求 在 任何 一 对 动态 关联 的 设备 间 有 
自 适应 性 ， 这 样 自 适应 性 不 再 受 限于 基础 设施 中 某 个 服务 的 客户 。 现 在 ， 有 很 多 潜在 的 提供 商 ， 
他 们 的 内 容 需 要 适 配 。 此 外 ， 这 些 提 供 商 也 可 能 因为 缺乏 资源 而 不 能 自行 完成 某 些 类 型 的 自 适应 。 

对 智能 空间 的 一 个 建议 是 ， 在 它们 的 基础 设施 中 提供 代理 以 实现 它们 拥有 的 易 变 组 件 间 的 内 
容 适 配 [Kiciman and Fox 2000; Ponnekanti et al. 2001]。 第 二 个 建议 是 应 该 更 密切 地 观察 哪 种 类 型 
的 内 容 适 配 可 以 并 且 应 该 在 小 型 设备 上 完成 。 特 别 地 ， 压 缩 是 一 个 很 重要 的 例子 。 

即使 在 基础 设施 中 只 有 一 个 强大 的 自 适应 代理 ， 设 备 仍然 需要 将 它 的 数据 发 送 给 代理 。 上 面 
我 们 讨论 过 ， 与 处 理 相 比 通信 是 非常 昂贵 的 。 原 则 上 ， 在 发 送 前 压缩 数据 是 最 有 效 的 节约 能 量 的 
方法 。 然 而 ， 压 缩 时 的 内 存 访问 模式 对 能 量 消耗 有 很 大 的 影响 。 Barr 和 Asanovic[2003] 证 实 ， 第 一 
次 压缩 数据 时 使 用 默认 的 实现 可 能 要 消耗 更 多 能 量 ,但 是 对 压缩 和 解压 缩 算法 (特别 是 对 内 存 访 
问 模 式 ) 进行 细致 的 优化 后 ， 与 传送 未 压缩 数据 相 比 可 能 会 极 大 地 节约 能 量 。 


16.6.2 适应 变化 的 系统 资源 


虽然 设备 间 的 硬件 资源 (比如 屏幕 大 小 ) 是 不 同 的 ， 但 它们 至 少 是 稳定 的 并 且 是 我 们 熟悉 的 。 
相 比 之 下 ， 应 用 还 依赖 于 运行 时 变化 的 、 难 预测 的 资源 ， 比如 可 用 的 能 量 和 网 络 带 宽 。 在 本 节 中 ， 
我 们 将 讨论 在 运行 时 处 理 资 源 级 别 变化 的 技术 。 我 们 将 讨论 操作 系统 对 运行 在 易 变 系统 中 的 应 用 
的 支持 和 在 智能 空间 基础 设施 中 为 应 用 增强 资源 可 用 性 的 支持 。 

对 易 变 资源 自 适 应 性 的 OS 支持 ”Satyanarayanan[2001] 描 述 了 自 适 应 性 的 三 个 方法 。 一 个 方法 
是 为 应 用 请 求 资 源 并 得 到 资源 预 留 。 虽 然 资源 预 留 对 应 用 而 言 很 便利 ( 见 第 17 章 )， 但 在 易 变 系统 
中 满足 QoS 保证 有 时 很 难 ， 甚 至 在 某 些 情况 下 〈 比 如 能 量 耗 尽 的 时 候 ) 是 不 可 能 满足 的 。 第 二 种 方 
法 是 通知 用 户 可 用 资源 的 级 别 发 生 了 变化 ， 这 样 他 们 可 以 根据 应 用 作出 反应 。 例如 ， 如 果 带 宽 变 
低 ， 视 频 播 放 器 的 用 户 可 以 操作 应 用 程序 中 的 滑动 条 来 改变 帧 率 或 分 辩 率 。 第 三 种 方法 是 为 OS 通 
知 应 用 资源 条 件 发 生 了 变化 ， 应 用 根据 它 的 特定 需求 进行 适应 。 

Odyssey[Nobel and Satyanarayanan 1999] 为 应 用 适应 资源 (如 网 络 带 宽 ) 可 用 级 别 的 变化 提供 
了 操作 系统 支持 。 例 如 ， 如 果 带 宽 降低 ， 那么 视频 播放 器 可 能 切换 到 颜色 较 少 的 视频 流 ， 也 可 能 
调整 分 辩 率 或 帧 率 。 在 Odyssey 体系 结构 中 ， 应 用 程序 管理 数据 类 型 ， 比 如 视频 或 图 像 ， 并 且 随 资 
源 条 件 的 变化 调整 保 真 度 (类 型 特定 的 质量 )， 根 据 保 真 度 呈 现 数据 。 称 为 总 督 的 系统 组 件 将 设备 
所 有 的 资源 分 配给 运行 在 设备 上 的 儿 个 应 用 。 在 任何 时 候 ， 每 个 应 用 运行 时 带 有 一 个 容 刀 窗口 以 
容忍 资源 条 件 的 改变 。 容 忍 窗口 给 出 了 资源 级 别 的 一 个 区 间 ， 根据 实际 资源 变化 ， 它 要 选 得 足够 
宽 以 便 与 实际 适应 ， 但 也 要 足够 宕 以 使 得 应 用 始终 运行 在 该 限制 内 。 当 总 督 要 将 资源 等 级 变 成 容 
忍 窗口 外 的 一 个 值 时 ， 它 对 应 用 发 出 一 个 向 上 调用 ， 之 后 应 用 做 出 相应 反应 。 例如 ， 如 果 带 宽 降 
到 较 低 级 别 ， 视 频 播放 器 可 能 变 成 黑白 色 ， 它 可 能 平稳 地 调整 帧 率 和 /或 分 辩 率 。 

利用 智能 空间 资源 在 Cyber Foraging[Satyanarayanan 2001; Goyal and Carter 2004; Balan et al. 
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2003] 中 ， 处 理 受 限 的 设备 在 智能 空间 中 发 现 了 一 个 计算 服务 器 ， 并 将 它 的 一 些 处 理 负载 转 给 该 服 
务 器 。 例 如 ， 将 用 户 的 语音 转化 成 文本 是 一 项 处 理 密集 的 活动 ， 并 且 利用 便携 设备 不 能 满意 地 实 
现 。 利 用 智能 空间 资源 的 一 个 目标 是 增加 应 用 对 用 户 的 响应 度 一 一 基础 设施 中 的 计算 机 的 处 理 能 力 
是 便携 设备 的 许多 倍 。 但 是 这 也 是 能 量 教 感 自 适 应 的 一 个 例子 : 该 系统 的 另 一 个 目标 是 通过 将 工 
作 分 配给 大 功率 计算 服务 器 来 保存 便携 设备 的 电量 。 

cyber foraging 仍 然 面临 一 些 挑 战 。 需 要 将 应 用 分 解 ， 以 便 有 效 地 在 计算 服务 器 上 处 理 分 解 后 
的 子 应 用 。 但 是 如 果 没 有 计算 服务 器 可 用 ， 应 用 应 该 仍 能 正确 运行 (虽然 比较 慢 或 保 真 度 有 所 降 
低 )。 计 算 服 务 器 应 该 运行 应 用 的 一 部 分 ， 这 部 分 应 用 与 便携 设备 间 的 通信 相对 很 少 ， 否 则 在 低 带 
宽 连 接 上 通信 所 占用 的 时 间 会 超过 处 理 所 用 的 时 间 。 此 外 ， 便 携 设 备 全 部 的 能 量 消耗 必须 是 令 人 
满意 的 。 因 为 通信 需要 消耗 大 量 的 能 量 ， 所 以 使 用 计算 服务 器 不 一 定 能 节约 能 量 。 与 计算 服务 器 
通信 耗费 的 能 量 可 能 超出 转移 处 理 所 节 约 的 能 量 。 

Balan 等 [2003] 讨 论 了 如 何 划分 应 用 来 解决 上 述 挑战 ， 并 描述 了 一 个 用 于 监控 资源 级 别 (比如 
计算 服务 器 的 可 用 性 、 带 宽 和 能 量 ) 的 系统 ， 以 及 使 用 一 个 小 的 分 解 选 项 集合 ， 以 适应 在 便携 设 ， 
备 和 计算 服务 器 之 间 划 分 应 用 。 例 如 ， 考 虑 下 面 的 情景 ， 用 户 通过 对 着 移动 设备 说 话 来 显示 文字 ， 
再 将 文字 翻译 为 一 种 外 语 〈 他 们 访问 国家 的 语言 )。 有 多 种 方法 可 以 在 移动 设备 和 计算 服务 器 之 间 
划分 这 个 应 用 (不 同 的 划分 具有 不 同 的 资源 利用 含义 )。 如 果 有 多 个 计算 服务 器 可 用 ， 那 么 可 以 让 
它们 分 担 识别 和 翻译 的 不 同 的 阶段 的 工作 ， 如 果 只 有 一 个 计算 服务 器 可 用 ， 那 么 这 些 应 用 应 该 在 
该 机 器 上 共同 运行 或 在 移动 设备 和 计算 服务 器 之 间 运 行 。 

Goyal 和 Carter[2004] 采 用 了 一 种 更 静态 的 方法 来 划分 应 用 ， 这 种 方法 假定 应 用 已 分 解 成 独立 的 
通信 程序 。 例 如 ， 移 动 设备 可 以 用 两 种 方式 执行 语音 识别 。 第 一 种 方式 是 ， 应 用 完全 运行 在 移动 
设备 上 (但 速度 很 慢 )。 第 二 种 方式 是 ， 移 动 设备 只 运行 用 户 界面 ， 用 户 界面 将 用 户 声音 的 数字 音 
频 装载 到 计算 服务 器 上 运行 的 一 个 程序 中 ， 该 程序 将 识别 后 的 文本 回 送 给 移动 设备 加 以 显示 。 对 
移动 设备 而 言 ， 发 送 识别 程序 到 计算 服务 器 的 能 量 代价 可 能 很 高 ， 所 以 设备 改 为 发 送 程序 的 URL， 
计算 服务 器 从 外 部 资源 中 下 载 该 程序 并 运行 。 


16.6.3 ”小结 和 前 景 


本 节 描 述 了 易 变 系统 的 两 种 自 适应 ， 自 适应 是 由 它们 的 异 质 和 它们 的 运行 条 件 的 易 变 性 造 动 
的 。 有 根据 媒体 消费 者 的 上 下 文 〈 比 如 设备 的 特征 和 设备 用 户 的 任务 ) 的 多 媒体 数据 适 配 ， 还 有 
根据 系统 资源 (比如 能 量 和 带宽 ) 的 动态 等 级 进行 的 自 适应 。 

我 们 指出 ， 在 原则 上 最 好 制造 出 一 种 自 适应 软件 ， 它 可 以 根据 一 个 深刻 理解 的 变化 模型 适应 
变化 的 环境， 而 不 是 随 需要 被 迫 以 自 组织 方 式 进化 软件 和 硬件 。 然 而 ， 制 造 这 样 的 自 适应 软件 很 
困难 ， 并 且 在 制造 这 样 的 软件 方面 没有 通用 的 协议 。 第 一 ， 变 化 模型 本 身 (关于 资源 等 级 如 何 变 
化 和 当 它 们 变化 时 如 何 反应 ) 就 很 难得 到 。 第 二 ， 存 在 软件 工程 方面 的 挑战 。 在 已 存在 的 软件 中 ， 
找到 合适 的 自 适应 的 地 方 需要 具有 该 软件 工作 的 固有 知识 ， 并 且 不 一 定 能 成 功 。 然 而 ， 当 从 头 开 
始 创建 新 的 自 适应 软件 时 ， 可 以 利用 软件 工程 领域 的 技术 (比如 面向 方面 编程 [Elrad et al. 2001]) 
帮助 程序 员 管 理 自 适应 性 。 


16.7 Cooltown 实 例 研 究 


Hewlett-Packard 的 Cooltown 项 目 [Kindberg er al. 2002a;Kindberg and Barton 2001] 的 目标 是 为 
游牧 计算 提供 基础 设施 ， 游 牧 计算 是 用 于 面向 人 的 移动 和 无 处 不 在 计算 的 项 目的 术语 。 “游牧 ” 指 
人 在 他 们 的 日 常生 活 中 ， 在 不 同 地 点 (比如 家 、 工 作 地 点 和 商店 ) 间 移动 。 “计算 ” 指 提供 给 游牧 
用 户 的 服务 一 -不 只 是 那些 只 要 连通 就 可 以 提供 的 服务 (比如 邮件 )， 更 多 的 是 那些 与 用 户 进行 移 
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动 的 日 常 物理 世界 中 的 实体 集成 的 服务 。 为 了 访问 这 些 服务 ， 假 定 用 户 携带 或 穿戴 带 有 传感器 的 
无 线 设 备 ， 比 如 手机 、PDA 或 智能 手表 。 

特别 地 ， 通 过 下 面 两 个 目标 ， 项 目 把 从 Web 中 学 到 的 成 功 经 验 运用 到 游牧 计算 中 。 第 一 ， 
为 Web 在 虚拟 世界 中 提供 了 丰富 的 、 可 扩展 的 资源 集合 ， 因 此 大 多 数 资源 可 以 潜在 地 通过 将 Web 的 
体系 结构 和 Web 中 已 有 的 资源 扩展 到 物理 世界 中 而 获得 。Cooltown 的 一 个 目标 可 以 总 结 为 “任何 
事物 都 有 一 个 Web 页 面 ” : 我 们 物理 世界 中 的 每 个 实体 ， 不 论 是 否 是 电子 的 ， 都 有 一 个 相关 联 的 
Web 资 源 ( 称 为 Web 存 在 )， 当 存在 这 样 的 实体 时 ， 用 户 就 能 够 方便 地 访问 Web 存 在 。Web 存 在 可 
能 只 是 一 个 包括 实体 信息 的 Web 页 ， 也 可 能 是 与 该 实体 关联 的 任何 服务 。 例 如 ， 一 个 物理 产品 的 
Web 存 在 可 以 是 得 到 替换 部 件 的 一 个 服务 。 

第 二 个 目标 是 为 了 与 设备 交互 以 达到 Web 高 度 的 互 操作 性 。 游 牧 用 户 可 能 需要 在 以 前 从 未 到 
达 的 地 方 与 他 们 以 前 从 未 遇 到 的 Web 存 在 交互 。 为 了 从 这 些 服 务 中 获 益 ， 用 户 不 得 不 在 他 们 的 便 
携 设备 上 装载 新 软件 或 重新 配置 已 有 的 软件 ， 这 对 用 户 而 言 是 不 可 接受 的 。 

本 书 我 们 关注 Cooltown 体 系 结构 的 主要 方面 (参见 图 16-12) 有 : Web 存 在 、 物 理 超 链 接 ( 它 
从 物理 实体 连接 到 Web 存 在 ， 从 而 连接 到 该 Web 上 的 超 链 接 资源 )、eSquirt 以 及 一 个 与 Web 存 在 设 
备 互 操作 的 协议 。 


“int URLN 欠 ”上下文 (和 如 的 到 中 表示 ) 
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图 16-12 Cooltown 的 各 层 
16.7.1 Web 存 在 


Cooltown 考 虑 将 物理 实体 划分 为 三 种 类 型 ， 人 、 位 置 和 物体 。 人 、 位 置 或 物体 的 Web 存 在 是 为 
适合 特定 应 用 而 选择 的 任何 可 能 的 Web 资 源 。 但 是 Cooltown 为 人 和 位 置 的 Web 存 在 选 定 了 某 些 角色 。 
物体 和 人 的 Web 存 在 被 集中 在 位 置 的 Web 表 示 中 ， 所 以 下 面 的 描述 遵循 这 个 顺序 。 

物体 :“ 物 体 ” 是 指 设备 或 者 非 电子 的 物理 实体 。 通 过 将 Web 服 务 器 嵌入 物体 中 或 者 在 Web 服 
务 器 内 拥有 它们 的 Web 表 示 , 物体 就 成 为 Web 存 在 。 如 果 物 体 是 设备 ,那么 URL 就 是 它 实 现 的 服务 。 
例如 , “因特网 收音 机 ”是 一 个 音乐 播放 设备 ， 它 拥有 自己 的 Web 存 在 。 发 现 因特网 收音 机 的 URL 
的 用 户 得 到 一 个 可 控 的 Web 页 面 ， 使 得 用 户 可 以 将 它 “ 调 ”到 一 个 因特网 广播 源 ， 还 可 以 调整 它 
的 设置 (比如 音量 ) ， 或 者 上 载 用 户 自己 的 声音 文件 。 非 电子 物体 也 可 以 有 Web 存 在 ， 这 种 Web 存 
在 是 与 该 物体 关联 的 一 个 Web 资 源 ， 但 由 其 他 地 方 的 Web 服 务 器 所 拥有 。 例 如 ， 一 个 打印 出 来 的 文 
档 的 Web 存 在 可 以 是 它 对 应 的 电子 文档 : 用 户 可 以 从 物理 制品 上 发 现 它 的 Web 存 在 (正如 我 们 在 
16.7.2 节 解释 的 ) 并 请 求 新 的 打印 ， 而 不 是 去 影印 打印 的 文档 (那样 会 降低 质量 ) 。 音 乐 CD 的 Web 
存在 可 能 是 某 些 相 关 的 数字 内 容 (如 额外 的 音乐 剪辑 和 图 像 )， 这 些 内 容 保 存在 其 拥有 者 的 个 人 媒 
体 集 合 中 。 

人 : 人 通过 提供 带 有 方便 通信 的 服务 的 Web 主 页 以 及 通过 提供 关于 他 们 当前 上 下 文 的 信息 而 成 
为 Web 存 在 。 例 如 ， 没 有 移动 电话 的 用 户 可 以 通过 它们 的 Web 存 在 使 得 本 地 电话 号 码 可 用 ， 这 个 Web 
存在 是 一 个 数值 ， 当 他 们 到 处 走动 时 ， 他 们 的 Web 存 在 自动 更 新 该 电话 号 码 值 。 但 是 他 们 也 可 能 先 
择 他 们 的 Web 存 在 来 显 式 地 注册 当前 的 位 置 (通过 到 他 们 所 处 的 物理 位 置 的 Web 存 在 的 一 个 链接 )。 
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位 置 : 使 用 本 章 的 术语 ， 位 置 是 智能 空间 。 位 置 变 成 Web 存 在 是 通过 注册 在 其 中 的 人 和 物体 
的 web 存在 一 一 甚至 嵌入 的 位 置 或 其 他 相关 的 位 置 的 web 存在， 注册 工作 可 由 带 有 一 个 位 置 特定 的 
目录 服务 完成 〈 见 9.3 节 )。 位 置 的 目录 也 包括 静态 的 信息 ， 比 如 对 位 置 的 物理 特征 和 功能 的 描述 。 
目录 服务 使 得 组 件 发 现 位 置 内 的 动态 Web 存 在 集合 ， 并 与 之 交互 。 它 也 可 作为 有 关 位 置 和 它 的 内 
容 的 一 个 信息 源 ， 并 以 Web 页 面 的 形式 展示 给 用 户 。 

位 置 内 Web 存 在 的 目录 条 目 可 以 通过 两 种 方法 建立 ， 第 一 ， 由 网 络 发 现 服务 ( 见 16.2.1 节 ) 自 
动 注册 该 位 置 子 网 内 设备 所 实现 的 任何 Web 存 在 一 一 位 置 内 无 线 连接 的 设备 ， 或 该 位 置 的 基础 设施 
服务 器 。 然 而 ， 即 使 网 络 发 现 服务 很 有 用 ， 它 们 也 不 得 不 面 对 不 是 所 有 的 Web 存 在 都 由 该 位 置 子 
网 内 的 设备 拥有 的 事实 。 非 电子 物理 实体 的 Web 存 在 (包括 人 、 文 档 和 音乐 CD， 后 两 者 是 被 移入 
位 置 或 被 带 进位 置 的 ) 可 能 属于 其 他 地 方 。 这 些 Web 存 在 必须 在 一 个 称 为 物理 注册 的 过 程 中 手动 
地 注册 到 那里 或 通过 感知 机 制 例 如， 通过 感知 它们 的 RFID 标 记 ) 进行 注册 。 

称 为 Web 大 在 管理 器 [Debaty and Caswell 2001] 的 服务 管理 着 Web 存 在 的 位 置 ( 例 如 ， 一 个 建 
筑 物 的 所 有 房间 )， 它 也 管理 人 和 物体 的 Web 存 在 。 位 置 是 Cooltown 的 上 下 文 抽象 的 一 个 特殊 实例 : 
一 组 相关 的 Web 存 在 实体 为 某 些 目的 (比如 浏览 ) 链接 在 一 起 。Web 存 在 管理 器 将 每 个 Web 存 在 的 
实体 与 该 实体 的 上 下 文中 实体 的 Web 存 在 关联 。 例 如 ， 如 果实 体 是 物体 ， 它 的 相关 实体 可 能 是 扒 
带 它 的 人 和 放置 它 的 位 置 。 如 果实 体 是 人 ， 他 的 相关 实体 可 能 是 他 携带 的 物体 、 他 当前 所 处 的 位 
置 和 周围 的 人 。 


16.7.2 物理 超 链接 


Web 存 在 与 其 他 的 Web 资 源 类 似 ， 所 以 Web 页 也 可 以 像 其 他 链接 一 样 包括 到 其 他 Web 存 在 的 文 
本 或 图 像 链接 。 但 是 ， 在 那些 标准 Web 链 接 模型 中 ， 用 户 通过 信息 源 ( 即 Web 页 ) 找到 人 、 位 置 或 
物体 的 Web 存 在 。Cooltown 设 计 使 人 从 他 们 的 物理 源 (也 就 是 他 们 每 天 在 物理 世界 移动 时 遇 到 的 
具体 的 人 、 位 置 或 物体 ) 直接 到 达 相 应 的 Web 存 在 。 

物理 超 链 接 是 一 种 手段 ， 通 过 它 用 户 能 够 从 物理 实体 本 身 或 它 邻 近 的 环境 检索 实体 的 Web 存 
在 的 URL。 我 们 现在 考虑 实现 物理 超 链接 的 方式 。 首 先 ， 考 虑 Web 页 中 一 个 典型 链接 的 HTML 标 
记 ， 比 如 : 

< a href="http://cdk4 .net/ChopSuey.html" >Hopper's painting Chop Suey</a> 
表示 将 Web 页 中 的 文本 “Hopper's painting Chop Suey” 链接 到 位 于 http://cdk4.net/ChopSuey.html 
的 关于 爱德华 霍 珀 的 作品 Chop Suey 的 网 页 。 现 在 ， 考 虑 这 个 问题 ， 博物 馆 的 访问 者 看 到 一 幅 绘 画 
作品 ， 如 何 通过 “点 击 ”该 作品 以 在 他 们 的 手机 、PDA 或 其 他 便携 设备 的 浏览 器 上 得 到 有 关 该 绘 
画 的 信息 ， 可 能 需要 一 种 方法 从 作品 本 身 的 物理 配置 中 发 现 该 作品 的 URL。 一 种 可 能 的 方法 是 将 
作品 的 URL 写 在 墙 上 ， 这 样 用 户 可 以 将 该 URL 键 人 他 们 的 设备 的 浏览 器 中 。 但 是 这 种 方法 是 笔 拙 
的 、 费 力 的 。 

Cooltown 利 用 用 户 拥有 与 他 们 的 设备 集成 的 传感器 ， 研 究 出 了 两 种 通过 传感器 发 现实 体 的 
URL 的 方法 : 直接 感知 和 间接 感知 。 

直接 感知 ; 在 该 模型 下 ， 用 户 设备 直接 从 标记 (“自动 标识 ”标记 ) 或 附 在 感 兴趣 的 实体 上 
的 信和 标 或 在 实体 旁边 的 信和 标 感知 到 URL ( 见 16.4.3 节 ) 。 一 个 相对 较 大 的 实体 (比如 房间 ) 在 容易 
看 见 的 位 置 可 能 有 几 个 标记 或 信 标 。 标 记 是 一 个 被 动 的 设备 或 制品 ， 当 用 户 将 他 们 设备 的 传感器 
放置 在 它 旁边 时 ， 它 会 显示 URL。 例 如 ， 可 拍照 手机 在 原理 上 可 以 对 写 在 标签 上 的 URL 实 行 视觉 
字符 识别 或 者 读 取 编 码 成 二 维 条 形 码 的 URL。 另 一 方面 ， 信 标定 期 发 射 实 体 的 URL， 通 常 通过 
(定向 的 ) 红外 线 而 不 是 无 线 电 ， 因 为 无 线 电 通 常 是 全 方位 的 ， 因 此 会 导致 不 确定 哪个 URL 属 于 
哪个 实体 。 
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绘画 作品 


信 标 ”@ © 
hy ma) deb 
一 看 PDA 或 手机 | 
<link title=*Chop Suey™ href= “http..*> <link title=“Chop Suey” href= “http..”> 
a) 用 户 捕获 绘画 作品 的 Web 存 b) 用 户 使 用 eSquirt 发 送 URL 到 打印 机 ， 
在 的 URL 打印 绘画 作品 的 Web 存 在 


图 16-13 捕获 和 打印 绘画 作品 的 Web 存 在 


特别 地 ，Cooltown 项 目 以 小 设备 形式 ( 仅 几 厘米 长 ) 开发 信 标 ， 这 些小 设备 每 几 分 钟 使 用 一 
种 单程 触发 无 连接 协议 通过 红外 线 发 射 一 个 字符 串 (参见 图 16-13a)。 发 射 的 字符 串 是 类 似 XML 的 
文档 ， 包 括 实体 的 Web 存 在 的 URL 和 一 个 简短 的 标题 。 许 多 便携 设备 (比如 手机 和 PDA) 都 集成 
了 红外 线 接收 器 ， 因 此 能 够 接收 这 样 的 字符 串 。 当 客户 程序 接收 字符 串 时 ， 它 可 以 使 用 设备 的 浏 
览 器 直接 连接 到 接收 到 的 URL， 也 可 以 用 接收 到 的 标题 创建 一 个 到 接收 到 的 URL 的 超 链 接 ， 并 将 
该 超 链接 加 入 到 接收 到 的 超 链 接 列表 中 ， 之 后 用 户 可 以 点 击 相应 的 超 链接 。 

间接 感知 : 间接 感知 是 用 户 设 备 从 标记 或 信 标 中 得 到 一 个 标识 符 ， 通 过 查询 它 得 到 一 个 URL。 
感知 设备 知道 一 个 解析 器 的 URL， 这 个 解析 器 是 一 个 名 字 服 务 器 ， 它 维护 一 个 从 标识 符 到 URL 
(在 第 9 章 术语 中 叫 名 字 上 下 文 ) 的 绑 定 集合 ， 并 返回 绑 定 到 给 定 标识 符 的 URL[Kindberg 2002]。 
在 理想 情况 下 ， 实 体 标识 符 的 名 字 空 间 将 足够 大 以 使 得 每 个 物理 实体 有 一 个 唯一 的 标识 符 ， 从 而 
消除 了 二 义 性 。 然 而 ， 原 则 上 ， 本 地 标识 符 只 要 曾经 被 本 地 解析 器 查找 过 ， 就 可 以 被 使 用 。 否 则 ， 
可 能 得 到 伪造 的 结果 ， 因 为 其 他 人 可 能 为 另 一 个 实体 使 用 了 相同 的 标识 符 。 

有 时 需要 使 用 间接 感知 ， 因 为 标记 技术 中 的 限制 意味 着 不 可 能 直接 感知 URL。 例 如 ， 线 性 条 
形 码 没有 足够 能 力 存储 任意 一 个 URL， 便 宜 的 RFID 标 记 只 能 存储 一 个 定 长 的 二 进 制 标 识 符 。 在 这 
些 情 况 下 ， 必 须 查 询 存储 的 标识 符 以 得 到 Web 存 在 的 URL。 

不 过 ， 使 用 间接 感知 还 有 一 个 积极 的 原因 : 它 人 允许 给 定 的 物理 实体 有 一 组 Web 存 在 而 不 是 只 
有 一 个 Web 存 在 。 正 如 短语 “Hopper's painting Chop Suey” 可 能 出 现在 多 个 Web 网 页 上 ， 而 且 链 
接 到 不 同 的 Web 网 页 ， 给 定 的 物理 绘画 作品 可 能 根据 解析 器 的 不 同 导致 不 同 的 Web 存 在 。 例 如 ， 革 
个 作品 的 一 个 Web 存 在 可 以 是 一 个 到 服务 的 链接 ， 该 服务 是 在 博物 馆 中 邻近 的 打印 机 上 打印 一 个 
副本 ， 该 作品 的 另 一 个 Web 存 在 可 以 是 一 个 提供 该 作品 信息 的 网 页 ， 这 些 信 息 来 自 一 个 与 博物 馆 
无 关 的 独立 的 第 三 方 。 

解析 的 实现 遵循 Web 体 系 结构 ， 其 中 每 个 解析 器 是 一 个 独立 的 Web 站 点 。 客 户 软件 是 一 个 浏览 
器 加 上 一 个 简单 的 插件 。 解 析 器 提供 Web 表 单 (包括 一 个 用 户 填写 的 域 ) 作为 感知 产生 的 结果 ， 
而 不 是 将 域 显示 给 用 户 让 其 手工 填写 。 也 就 是 说 ， 当 用 户 扫描 条 形 码 时 ， 作 为 结果 的 标识 符 自动 
地 填写 到 表单 中 ， 并 且 客 户 将 表单 发 送 给 解析 器 。 解 析 器 返回 相应 的 URL (如 果 存 在 )。 

因为 解析 器 本 身 也 是 Web 资 源 ， 当 它们 可 能 是 其 他 Web 页 面 时 用 户 可 以 导航 到 它们 [Kindberg 
2002]， 并 用 客户 使 用 的 解析 器 更 新 信息 。 特 别 地 ， 用 户 可 能 使 用 本 地 物理 超 链 接 得 到 本 地 解析 器 
的 URL。 例 如 ， 博 物 馆 的 管理 者 可 以 建立 Cooltown 信 标 让 其 发 射 本 地 解析 器 的 URL， 这 样 访问 者 
能 够 使 用 解析 器 得 到 博物 馆 内 与 绘画 相关 的 Web 存 在 。 同 样 的 ， 如 果 绘 画作 品 的 标识 符 是 众 所 周 
知 的 ， 那 么 访问 者 就 可 以 利用 Web 上 其 他 地 方 的 解析 器 。 例 如 ， 一 个 西班牙 的 访问 者 在 访问 北美 
的 一 个 博物 馆 时 可 能 利用 保存 成 书签 的 西班牙 艺术 博物 馆 站 点 的 解析 器 。 

最 后 ， 尽 管 我 们 已 经 指出 间接 感知 相对 于 直接 感知 的 几 个 优点 ， 但 它 也 有 一 个 主要 的 缺点 : 
客户 连接 到 解析 器 会 产生 额外 的 往返 ， 同 时 有 延迟 和 能 量 消耗 。 
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16.7.3 互 操作 和 eSquirt 协 议 

Web 存 在 的 目标 设备 和 用 户 便携 设备 之 间 进行 互 操 作 的 一 种 方法 是 使 用 标准 Web 协 议 。 用 户 的 
便携 设备 发 起 一 个 HTTP GET 或 POST 操作 ， 目 标 设备 以 Web 页 面 形式 的 用 户 界面 作为 响应 ， 便 携 
设备 负责 呈现 这 个 Web 页 面 。 回 到 前 面 的 例子 ， 一 个 Web 存 在 的 因特网 收音 机 可 以 通过 面向 用 户 的 
信和 标 给 出 它 的 Web 服 务 的 URL。 用 户 走 到 收音 机 前 ， 将 他 们 的 便携 设备 (也 就 是 PDA) 上 的 红外 
线 接收 器 指向 它 ，PDA 上 的 客户 程序 从 收音 机 上 接收 到 URL， 并 将 URL 传 送 到 它 的 浏览 器 。 结 果 ， 
PDA 上 出 现 收音 机 的 “ 主 ” 页 ， 带 有 控制 面板 用 以 调节 它 的 音量 、 可 以 从 PDA 上 载 和 播放 声音 文 
件 ， 等 等 。 

博物 馆 内 的 Web 存 在 的 打印 机 也 具有 类 似 的 行为 。 用 户 通 过 打印 机 的 信 标 得 到 打印 机 的 主页 ， 
这 样 能 够 上 载 内 容 到 打印 机 并 通过 Web 页 面 指定 打印 机 的 设置 。 当 然 ， 设 备 〈 比 如 打印 机 ) 可 能 
有 物理 用 户 界 面 ， 但 是 简单 的 应 用 (比如 数码 相框 ) 则 可 能 没有 ， 那 么 虚拟 的 用 户 界 面 就 是 最 基 
本 的 了 。 

以 上 互 操 作 的 形式 是 面向 数据 的 并 且 是 与 设备 无 关 的 ， 这 大 体 上 与 Web 类 似 。 因 为 目标 设备 
提供 了 自己 的 用 户 界 面 ， 所 以 用 户 可 以 通过 他 们 的 浏览 器 控制 设备 ， 而 不 需要 目标 特定 的 软件 。 
例如 ，PDA 上 带 有 图 像 文件 的 用 户 可 以 在 任何 图 像 呈 现 设备 上 呈现 它 ， 不 论 是 打印 机 还 是 数码 相 
框 都 可 以 ，PDA 上 带 有 声音 文件 的 用 户 可 以 在 任何 音频 播放 设备 上 收听 该 文件 ， 不 论 它 是 一 个 因 
特 网 收音 机 还 是 一 个 “智能 ”HiFi 系 统 。 

那些 场景 的 问题 在 于 用 户 的 便携 设备 的 资源 相对 匮乏 一 一 它 可 能 有 低 带 宽 的 无 线 连接 一 一 处 在 
内 容 源 和 目的 地 之 间 的 内 容 传递 路 径 上 。 假 设 用 户 在 安装 了 Cooltown 的 博物 馆 中 已 得 到 绘画 作品 
的 一 个 图 像 ， 或 者 已 得 到 其 人 评论 该 作品 的 一 段 音频 剪辑 。 在 这 种 情况 下 ， 可 以 将 16.6 节 介绍 的 自 
适应 技术 运用 到 有 限 的 资源 (比如 屏幕 大 小 和 带宽 ) 上 ， 从 而 在 便携 设备 上 得 到 图 像 或 音频 剪辑 
的 较 低 失真 的 版 本 。 当 用 户 将 图 像 传送 到 博物 馆 的 打印 机 ， 或 者 将 声音 剪辑 传送 到 宾馆 房间 的 网 
上 电台 ， 它 们 的 质量 将 会 降低 ， 即 使 那些 设备 有 能 力 进行 高 质量 的 泻 染 ， 并 且 可 能 有 高 带宽 的 有 
线 网 络 连 接 。 

用 于 设备 间 互 操作 的 Cooltown eSquirt 协 议 解决 了 低 失 真 的 问题 ， 并 避免 了 宝贵 的 带宽 和 能 量 
消耗 ， 方法 是 将 内 容 的 URL 从 一 个 设备 传送 到 另 一 个 ， 而 不 是 传送 内 容 本 身 。 事 实 上 ， 该 协议 与 
通过 红外 线 将 URL (和 标题 ) 从 Cooltown 信 标 发 送 到 设备 的 协议 相同 (参见 图 16-13b)。 设 备 通过 
低能 量 红外 线 介 质 传 送 少 量 数据 ， 并 且 这 是 eSquirt 协 议 唯 一 的 网 络 操 作 ， 所 有 设备 都 涉及 该 操作 。 
然而 ， 接 收 设备 可 以 作为 Web 客 户 使 用 URL 检 索 内 容 ， 并 执行 操作 (比如 呈现 结果 数据 ) 。 

例如 ， 用 户 从 霍 珀 的 作品 旁 的 信 标 得 到 该 绘画 作品 的 URL， 通 过 使 用 具有 eSquirt 功 能 的 PDA 
可 将 该 URL 发 送 到 一 个 打印 机 。eSquirt 使 用 的 协议 是 不 可 靠 和 的， 但 是 ， 和 一 个 电视 远程 控制 一 样 ， 
如 果 传 输 失败 ， 那 么 用 户 可 再 次 按 下 “squirt” 按 钮 ， 直 到 打印 机 返回 确认 成 功 为 止 。 之 后 打印 机 
(更 确定 的 说 是 打印 服务 ， 它 可 能 在 基础 设施 中 实现 ) 作为 一 个 web 客户 从 URL 中 检索 内 容 (以 高 
保 真 的 形式 ) 并 打印 它 。 

这 样 ， 用 户 的 便携 设备 可 以 作为 该 URL 的 一 个 与 设备 无 关 的 剪 切 板 ， 类 似 于 桌面 用 户 界 面 上 
的 复制 一 粘贴 操作 中 与 应 用 无 关 的 数据 剪 切 板 。 用 户 采 用 设备 在 源 和 目的 地 之 间 “ 复 制 和 粘贴 ” 
URL， 从 而 在 它们 之 间 传 送 内 容 。 

与 设备 无 关 是 eSquirt 范 型 最 重要 的 优势 。eSquirt 协 议 经 常 以 相同 的 方式 工作 ， 不 同 的 是 接收 
器 对 URL 的 处 理 过 程 。 然 而 ， 用 户 必 须 对 发 射 的 URL 和 接收 设备 怎样 结合 才 会 有 意义 要 有 理性 的 
认识 。 接 收 设备 的 设计 者 必须 想到 一 些 可 能 的 错误 用户 可 能 错误 地 将 一 个 音频 文件 的 URL 发 射 
到 打印 机 。 不 过 ， 我 们 不 提倡 在 设计 时 就 解决 这 些 错误 。 采 取 预 防 措施 (比如 类 型 检查 ) 可 能 导 
致 我 们 在 16.2.2 节 提 到 的 丢失 机 会 和 脆弱 的 互 操 作 现象 。 
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虽然 简单 性 是 eSquirt 协 议 的 一 个 优点 ， 但 它 的 缺点 是 它 依赖 于 接收 设备 的 默认 设置 ， 或 者 依 
赖 使 用 物理 控制 器 来 输入 其 设置 。 也 就 是 说 ，eSquirt 不 能 使 用 我 们 在 本 节 开 始 提 到 的 互 操 作 范 型 。 
在 该 范 型 中 ， 客 户 设备 为 控制 日 标 设备 的 设置 获得 一 个 虚拟 用 户 界面 。 例 如 ， 将 一 个 声音 文件 或 
一 个 流 式 无 线 电 电台 的 URL 发 射 到 网 上 电台 后 ， 用 户 如 何 用 他 们 的 便 扒 设备 控制 音量 ? 习题 16.19 
将 讨论 这 个 问题 。 


16.7.4 小 结 和 前 及 


我 们 已 经 概述 了 Cooltown 体 系 结构 的 主要 特点 。 该 项 目的 目标 是 通过 扩展 Web ( 即 超 链接 内 
容 的 一 个 虚拟 集合 ) 到 物理 世界 中 的 实体 ， 而 不 管 那些 实体 本 身 是 否 有 电子 功能 ， 从 而 方便 游 收 
用 户 。 体 系 结构 考虑 了 物理 实体 (包括 人 、 位 置 和 物体 ) 如 何 关联 到 Web 存 在 。 其 次 是 物理 超 链 
接 一 一 从 物理 实体 上 感知 Web 存 在 的 URL 的 体制 。 项 目 使 用 红外 线 信 标 、 标 记 (比如 条 形 码 和 
RFID 标 记 ) 和 解析 器 将 标识 符 转变 为 URL， 从 而 实现 物理 超 链接 。 最 后 ，eSquirt 是 一 个 与 设备 无 
关 的 互 操作 协议 ， 它 将 低 功 耗 便携 设备 从 内 容 源 和 目的 地 之 间 的 内 容 路 径 中 解脱 出 来 。 

cooltown 在 很 大 程度 上 达到 了 它 的 目标 ， 但 只 建立 在 人 会 “不 断 重复 指令 ”的 假设 上 。 人 通 
过 物理 超 链接 发 现 与 他 们 遇 到 的 与 实体 关联 的 服务 。 人 可 能 也 需要 注册 贴 有 标记 的 非 电子 实体 的 
Web 存 在 ， 比 如 ， 音 乐 CD， 当 这 些 实体 被 放 在 一 个 Web 存 在 方式 的 位 置 (比如 一 座 房子 ) 的 上 下 
文中 ， 这 样 它们 在 那 就 变 成 电子 可 发 现 的 了 。 最 终 ， 人 不 但 通过 “点 击 ”物理 超 链 接 将 他 们 的 便 
携 设备 关联 到 Web 存 在 实体 ， 而 且 通 过 eSquirt 协 议 引 入 了 与 设备 无 关 的 互 操作 。 人 的 参与 增加 了 
灵活 性 ， 并 解决 了 丢失 交互 机 会 的 问题 。 然 而 ， 在 简单 eSquirt 互 操作 模型 中 ， 用 户 无 法 控制 接收 
设备 如 何 处 理 用 户 发 送 的 URL。 

男 一 项 研究 是 关于 自动 关联 和 Web 存 在 实体 的 互 操 作 。 每 个 物理 实体 可 以 有 统一 类 型 的 Web 存 
在 实例 ， 它 将 记录 该 实体 的 语义 的 细节 (可 能 使 用 语义 Web 技 术 ) ， 包 括 该 实体 和 其 他 实体 之 间 的 
关系 ， 特 别 是 Web 存 在 的 人 或 物体 和 包括 它们 的 Web 存 在 位 置 之 间 的 关系 。 因 此 ， 给 定位 置 的 Web 
存在 可 以 互相 发 现 并 进行 互 操作 。 例 如 ， 在 会 议 上 ， 秘 书 的 Web 存 在 可 以 在 会 议 室 内 发 现 需要 打 
印 的 文档 、 发 现 出 席 的 成 员 、 发 现 附近 的 打印 机 并 且 打 印 一 定数 目的 副本 。Cooltown 的 Web 存 在 
管理 器 [Debaty and Caswell 2001] 已 经 开始 实现 这 个 目标 ， 不 只 是 对 地 点 而 是 对 Web 存 在 的 物体 和 
人 统一 管理 ， 这 些 物体 和 人 链接 到 相关 的 实体 ， 比 如 他 们 所 在 的 Web 存 在 的 地 点 。 例 如 ， 当 一 个 
实体 进入 一 个 新 位 置 并 在 那里 注册 时 ， 实 体 用 一 个 到 它 新 位 置 的 Web 存 在 的 链接 自动 地 进行 更 新 。 
理想 情况 下 ， 实 体 关 系 将 全 部 编程 建立 ， 而 不 是 由 当前 可 用 的 有 限 的 支持 来 建立 。 但 是 ， 由 于 我 
们 日 常 世 界 的 复杂 语义 ， 使 得 以 一 种 实际 有 用 而 没有 错误 的 方式 实现 一 个 应 用 〔〈 比 如 自动 会 议 支 
持 ) 还 有 很 长 的 路 要 走 。 同 时 ， 在 交互 中 包括 人 为 参与 将 可 能 取得 进展 。 


16.8 小 结 


本 章 给 出 了 移动 计算 机 系统 和 无 处 不 在 计算 系统 的 主要 挑战 ， 并 给 出 了 一 些 解决 方案 (因为 
可 用 的 方案 不 多 )。 大 多 数 挑战 源 于 下 面 的 事实 ， 系统 是 易 变 的 ， 这 很 大 程度 上 是 由 于 系统 与 我 们 
日 常 物理 世界 集成 在 一 起 造成 的 。 易 变 的 系统 是 在 给 定 智能 空间 中 用 户 、 硬 件 和 软件 组 件 集合 会 
发 生 不 可 预测 的 改变 的 系统 。 当 它们 从 一 个 智能 空间 移入 另 一 个 智能 空间 时 或 者 由 于 失效 ， 组 件 
道 常 有 规律 地 建立 和 破坏 关联 。 连 接 带 宽 随 时 间 会 产生 很 大 变化 。 组 件 可 以 因 电 量 耗 尽 或 其 他 原 
因而 失效 。16.1 ~ 16.3 节 全 面 地 讨论 了 易 变 性 的 这 些 方面 和 一 些 用 于 关联 组 件 并 使 得 它们 互 操作 
(尽管 有 “不 断 的 改变 ”的 困难 ) 的 技术 。 

设备 与 我 们 的 物理 世界 的 集成 涉及 感知 和 上 下 文敏 感 ( 见 16.4 节 )， 并 且 我 们 已 经 描述 了 处 理 
感知 数据 的 一 些 体系 结构 。 但 存在 一 个 可 以 描述 为 物理 保 真 度 的 挑战 : 带 有 感知 和 计算 行为 的 系 
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统 如 何 精确 地 按照 我 们 以 及 与 我 们 居住 的 物理 世界 联系 的 敏感 语义 运转 ? 当 我 们 在 位 置 间 移 动 时 ， 
上 下 文敏 感 手机 是 否 能 够 真 的 如 我 们 所 希望 的 那样 禁止 响 铃 ? 在 Cooltown 中 ， 位 置 (比如 宾馆 房 
间 ) 的 Web 存 在 实际 上 是 否 记 录 了 所 有 的 Web 存 在 实体 ， 人 可 以 说 成 是 位 于 那个 位 置 内 一 一 或 者 不 
是 ， 例 如 ， 人 在 相 邻 房间 内 ? 

安全 和 私密 性 〈 见 16.5 节 ) 成 为 移动 系统 和 无 处 不 在 系统 研究 的 一 大 特色 。 易 变性 使 安全 性 问 
题 更 加 复杂 ， 因 为 它 避 开 了 在 想 要 建立 安全 通道 的 组 件 问 有 什么 可 信赖 的 基础 的 问题 。 幸 运 的 是 ， 
物理 受 限 通道 的 存在 对 构建 有 人 存在 的 安全 通道 有 一 定 作用 。 物 理 集成 对 私密 性 有 影响 : 如 果 对 
用 户 进行 跟踪 并 提供 给 他 们 上 下 文敏 感 服务 ， 那 么 可 能 导致 严重 的 私密 性 丢失 。 我 们 描述 了 一 些 
用 于 标识 符 管理 的 方法 ， 概 术 了 用 于 减少 该 问题 的 统计 技术 。 

物理 集成 也 意味 着 对 设备 能 量 、 无 线 带宽 和 用 户 界面 等 因素 的 新 的 限制 ， 传 感 器 网 络 中 的 节点 
对 前 两 个 因素 有 很 少 要 求 ， 对 最 后 一 个 因素 则 没有 要 求 ， 手 机 对 三 者 都 有 要 求 ， 但 仍 比 桌 面 机 器 少 
很 多 。16.6 节 讨论 了 一 些 体 系 结构 ， 在 这 些 体系 结构 中 ， 组 件 能 够 适应 资源 限制 。 

16.7 节 将 Cooltown 项 目 作 为 一 个 实例 研究 ， 描 述 了 其 体系 结构 。 该 体系 结构 独特 之 处 在 于 它 将 
从 Web 中 学 到 的 经 验 运 用 到 无 处 不 在 计算 中 。 它 的 优势 是 高 度 的 互 操作 性 。 但 是 ，Cooltown 主 要 
用 于 人 监控 交互 的 情况 。 

最 后 ， 本 章 重点 讨论 了 移动 系统 和 无 处 不 在 系统 与 本 书 其 他 章节 介绍 的 更 传统 的 分 布 式 系统 
的 差异 ， 主 要 集中 在 易 变 性 和 物理 集成 方面 。 习 题 16.20 将 请 读者 列 出 它们 的 一 些 相似 点 ， 并 考虑 
采用 哪 种 传统 分 布 式 系 统 解决 方案 的 扩展 。 
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16.2 讨论 是 否 可 能 通过 组 播 (或 广播 ) 和 缓存 对 查询 的 应 答 改进 服务 发 现 的 “ 拉 ” 模 型 。( 第 671 页 ) 
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16.11 在 Active Bat 定 位 系统 中 ， 为 得 到 一 个 三 维 位 置 默 认 情 况 下 只 使 用 三 个 超声 波 接收 器 ， 而 在 
卫星 导航 中 为 得 到 一 个 三 维 位 置 却 需 要 四 颗 卫 星 。 为 什么 会 有 这 样 的 差异 ? (第 693 页 ) 
16.12 在 一 些 定位 系统 中 ， 被 跟踪 的 对 象 把 它们 的 标识 符 送 交 基 础 设施 。 解 释 这 如 何 引 发 了 对 私 
密 性 的 关注 (即使 标识 符 是 匿名 的 )? (第 695 页 ) 
16.13 许多 传感器 节点 遍布 一 个 区 域 ， 节 点 进行 安全 地 通信 。 解 释 密 钥 分 发 问题 并 概述 一 种 用 于 
分 发 密 钥 的 概率 论 策略 。 (第 697 页 ) 
16.14 我 们 描述 了 几 种 为 安全 自发 设备 关联 提供 接收 受 限 通道 的 技术 。 其 中 哪些 技术 也 提供 了 发 
送 受 限 通道 ? (第 699 页 ) 
16.15 说 明 如 何 从 一 个 接收 受 限 通道 构建 一 个 发 送 受 限 通道 ， 反 之 亦 然 。( 提 示 :， 使 用 一 个 连接 到 
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给 定 遂 道 的 可 靠 节点 。) (第 699 页 ) 
一 组 智能 空间 只 通过 它们 之 间 的 空间 (比如 走廊 或 广场 ) 相连 。 讨 论 判 断 该 中 间 空 间 是 否 
可 以 作为 一 个 混合 地 带 的 因素 。 (第 704 页 ) 
解释 采用 多 媒体 内 容 时 要 考虑 的 上 下 文 因素 。 (第 705 页 ) 


假设 使 用 无 线 电 在 100 米 距离 发 射 或 接收 1K 比 特 数据 所 消耗 的 能 量 可 以 使 设备 执行 300 万 条 
指令 。 设 备 可 以 选择 发 送 100K 字 节 的 二 进 制程 序 到 100 米 远 的 计算 服务 器 上 ， 服 务 器 在 运 
行 时 将 要 执行 600 亿 条 指令 ， 并 与 设备 交换 10000 1K 比 特 的 消息 。 如 果 只 考虑 能 量 ， 设 备 应 
该 卸载 计算 还 是 自己 执行 计算 呢 ? 假设 在 印 载 情 况 下 忽略 设备 的 计算 。 (第 708 页 ) 
一 个 Cooltown 用 户 将 声音 文件 或 流 广播 站 的 URL 发 送 给 网 上 电台 。 建 议 对 eSquirt 协 议 进行 
修改 ， 使 得 用 户 可 以 使 用 他 们 的 便携 设备 控制 音量 。( 提 示 : 考虑 发 射 设备 应 该 另外 提供 什 


么 样 的 数据 。) (第 715 页 ) 
讨论 将 以 下 领域 的 技术 运用 到 移动 和 无 处 不 在 系统 的 适用 性 : (1) 点 对 点 系统 (第 10 章 )， 
(2) 协调 和 协定 协议 (第 12 章 )，(3) 复制 (第 15 章 )。 (第 717 页 ) 
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第 17 章 分 布 式 多 媒体 系统 


多 媒体 应 用 程序 实时 生成 和 应 用 连续 的 数据 流 。 它 们 包含 大 量 的 音频 、 视 频 和 其 他 基于 时 间 
的 数据 元 素 ， 并 且 及 时 处 理 和 发 送 单独 数据 元 素 (音频 采样 、 视 频 帧 ) 是 非常 重要 的 。 延 迟 的 数 
据 元 素 是 没有 价值 的 ， 通 常 将 其 丢弃 。 

一 个 多 媒体 数据 流 的 流 规约 通常 包含 如 下 部 分 : 可 以 接受 的 从 源 到 目的 地 传输 数据 的 速率 
(带宽 )， 每 个 数据 元 素 的 传输 延 时 (延迟) 以 及 数据 元 素 的 丢失 率 。 在 交互 式 应 用 程序 中 ， 延 迟 
是 特别 重要 的 。 如 果 应 用 程序 在 某 些 数据 丢失 后 可 以 重新 调整 到 同步 接收 数据 ， 那 么 一 些 程度 较 
轻 的 多 媒体 数据 的 丢失 是 可 以 接受 的 。 

为 了 满足 多 媒体 和 其 他 应 用 程序 的 需求 而 进行 的 资源 计划 分 配 和 资源 调度 被 称 为 服务 质量 管 
理 。 分 配 处 理 器 处 理 能 力 、 网 络 带宽 和 内 存 容量 (用 来 缓冲 那些 提前 送 到 的 数据 元 素 ) 都 很 重要 。 
系统 根据 应 用 对 服务 质量 的 请 求 来 分 配 上 述 资源 。 一 个 成 功 的 QoS 请 求 向 应 用 程序 发 送 一 个 QoS 保 
证 ,并且 将 被 请 求 的 资源 预 留 ， 以 便 日 后 进行 调度 9 。 


17.1 简介 


现代 计算 机 可 以 处 理 像 数字 音频 和 数字 视频 数据 这 样 连续 的 、 基 于 时 间 的 数据 流 。 这 种 处 理 
能 力促 进 了 分 布 式 多 媒体 应 用 程序 的 发 展 ， 例 如 ， 网 络 视频 库 、 因 特 网 电话 和 视频 会 议 。 这 些 应 
用 程序 可 以 在 当前 通用 的 网 络 和 系统 上 运行 ， 但 是 它们 的 音频 和 视频 质量 经 常 难以 令 人 满意 。 当 
前 的 网 络 和 分 布 式 系统 技术 不 能 实现 许多 对 实时 数据 要 求 很 高 的 应 用 程序 (例如 ， 大 范围 的 视频 
会 议 、 数 字 电 视 产 品 、 交 互 式 电视 以 及 视频 监视 系统 )。 

多 媒体 应 用 程序 需要 及 时 地 将 多 媒体 数据 流传 输 到 用 户 端 。 音 频 和 视频 数据 流 被 实时 地 生成 
和 应 用 。 同 时 对 于 应 用 程序 的 完整 性 而 言 ， 及 时 地 传输 数据 元 素 (音频 采样 、 视 频 帧 ) 是 非常 重 
要 的 。 简 单 地 说 ， 多 媒体 系统 是 实时 系统 ， 它 必须 按照 外 部 决定 的 调度 方案 执行 任务 和 传输 结果 。 
底层 系统 达到 这 些 要 求 的 程度 便 是 应 用 程序 拥有 的 服务 质量 (QoS ) 。 

尽管 在 多 媒体 系统 出 现 前 就 有 人 研究 过 实时 系统 的 设计 问题 ， 并 且 人 们 已 经 开发 出 许多 成 功 的 
实时 系统 (例如 ，Kopetz 和 Verissimo [1993]) ， 但 是 它们 都 没有 被 集成 为 一 个 通用 的 操作 系统 和 网 
络 。 航 空 电子 设备 、 航 空 控制 、 制 造 过 程控 制 和 电话 交换 这 些 现 有 的 实时 系统 所 执行 的 任务 的 本 质 
和 多 媒体 应 用 程序 执行 的 任务 的 本 质 不 同 。 前 者 通常 处 理 的 数据 量 比 较 小 ， 并 且 硬 时 间 限 制 相 对 较 
少 ,但 是 如 果 超 过 这 个 时 间 限 制 ， 就 会 导致 严重 的 甚至 是 灾难 性 的 结果 。 在 这 种 情况 下 ， 解 决 办 法 
是 充分 估计 所 需要 的 资源 并 为 其 指定 固定 的 调度 计划 ， 以 保证 在 最 坏 的 情况 下 也 能 满足 其 需要 。 

为 了 满足 多 媒体 和 其 他 应 用 程序 的 需要 而 进行 的 有 计划 的 资源 分 配 和 资源 调度 被 称 为 服 
务 质量 管理 。 大 多 数 当前 的 操作 系统 和 网 络 并 没有 包含 支持 多 媒体 应 用 程序 所 需要 的 QoS 管 
理 设施 。 

在 多 媒体 应 用 程序 中 ， 特 别 是 在 视频 点 播 服务 、 商 业 会 议 应 用 和 远程 医疗 服务 这 样 的 商业 环 
境 中 ， 超 出 时 间 限 制 的 错误 也 会 带 来 严重 的 后 果 。 但 是 这 些 多 媒体 应 用 与 其 他 实时 应 用 程序 的 需 
求 相 比 有 很 大 差别 : 

。 多 媒体 应 用 程序 通常 是 高 度 分 布 的 ， 并 且 在 通用 的 分 布 式 计算 环境 中 使 用 。 因 此 在 用 户 工作 





日 本 章 参 考 了 Ralf Herrtwich|1995j 的 文章 ， 并 引用 了 其 中 的 材料 ， 在 此 对 Ralf Herrtwich 提 供 的 帮助 表示 感谢 。 


站 和 服务 器 上 ， 它 们 要 和 其 他 分 布 式 应 用 程序 竞争 网 络 带宽 和 计算 资源 。 

。 多 媒体 应 用 程序 对 资源 的 需求 是 动态 的 。 在 一 个 视频 会 议 系统 中 ， 随 着 参与 人 数 的 增加 和 减 

少 ， 其 所 需 的 带宽 也 会 增加 和 减少 。 在 每 个 用 户 的 工作 站 上 使 用 的 计算 资源 也 会 变化 ， 这 是 

因为 (例如 ) 需要 显示 的 视频 数据 流 的 数目 会 发 生变 化 。 多 媒体 应 用 程序 可 能 涉及 其 他 变化 

的 负载 和 间歇 性 的 负载 。 例 如 ， 一 个 多 媒体 讲座 可 能 包括 处 理 器 密集 型 的 仿真 活动 。 

“用 户 总 希望 平衡 多 媒体 应 用 程序 的 资源 开销 和 其 他 活动 的 资源 开销 。 例 如 ， 为 了 在 参加 会 议 

时 进行 一 个 独立 的 音频 会 话 程序 ， 或 者 在 参加 会 议 时 能 同时 运行 一 个 字 处 理 程序 ， 用 户 会 希 

望 减少 会 议 应 用 程序 对 视频 带宽 的 需求 。 

通过 根据 变化 的 需求 和 用 户 优先 级 来 动态 地 管理 和 分 配 可 用 的 资源 ，QoS 管 理 系统 希望 能 满足 
所 有 这 些 需 求 。 一 个 QoS 管理 系统 必须 管理 用 于 获得 、 处 理 和 传输 多 媒体 数据 流 的 所 有 计算 和 通信 
资源 ， 特 别 是 那些 由 多 个 应 用 程序 共享 的 资源 。 

图 17-1 给 出 了 一 个 典型 的 分 布 式 多 媒体 系统 ， 它 能 支持 多 种 应 用 程序 ， 例 如 桌面 会 议 或 者 提 
供 对 已 保存 的 视频 片段 的 访问 、 数 字 电 视 和 广播 。 其 中 ，QoS 管 理 的 资源 包括 网 络 带宽 、 处 理 器 周 
期 以 及 内 存 。 在 使 用 视频 服务 器 时 ， 还 包括 磁盘 带宽 资源 。 我 们 将 采用 资源 带宽 这 一 术语 来 表示 
用 于 传输 和 处 理 多 媒体 数据 的 所 有 硬件 资源 (网 络 、 中 央 处 理 器 、 磁 盘子 系统 ) 可 提供 的 能 力 。 

摄像 机 和 、 

志 克 风 。 
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广域网 关 ， 
视频 数字 
服务 器 TV/ 收 音 机 
服务 器 


图 17-1 一 个 分 布 式 多 媒体 系统 


在 开放 式 的 分 布 式 系统 中 ， 系 统 可 以 在 不 预先 安排 的 情况 下 启动 和 使 用 多 媒体 应 用 程序 。 多 
个 应 用 程序 可 以 同时 存在 于 一 个 网 络 中 ， 甚 至 可 能 同时 存在 于 一 个 工作 站 上 。 不 管 系统 中 的 资源 
带宽 和 内 存 容量 的 总 体质 量 如 何 ， 系 统 总 是 需要 QoS 管理 。QoS 管 理 用 于 保证 应 用 程序 能 在 所 需 的 
时 间 内 获得 必要 质量 的 资源 ， 甚 至 当 其 他 应 用 程序 竞争 资源 时 ， 也 能 保证 这 一 点 。 

一 些 多 媒体 应 用 程序 甚至 已 经 应 用 在 当今 缺乏 QoS 管理 但 具有 良好 的 计算 能 力 和 网 络 环境 的 计 
算 机 系统 上 。 它 们 包括 : 

基于 Web 的 多 媒体 : 这 些 应 用 程序 最 大 限度 地 访问 通过 Web 发 布 的 音频 和 视频 数据 流 。 它 们 曾 
经 成 功 过 ， 这 是 因为 那 时 人 们 不 需要 或 很 少 需要 不 同 地 点 上 的 同步 的 数据 流 。 当 前 网 络 上 的 有 限 
的 带宽 和 变化 的 延迟 以 及 当前 操作 系统 对 实时 资源 调度 的 能 力 不 强 都 限制 了 它 的 性 能 。 在 音频 和 
低 质量 的 视频 应 用 中 ， 系 统 使 用 目的 地 缓冲 区 来 减缓 带宽 和 延迟 的 变化 ， 这 样 可 以 获得 较 平滑 的 
视频 显示 ， 但 是 资源 到 达 目 的 地 的 延迟 可 能 会 长 达 数 秒 。 

网 络 电话 和 音频 会 议 ; 这 种 应 用 程序 对 带宽 的 要 求 相 对 较 低 ， 特 别 是 使 用 有 效 的 压缩 技术 后 
这 一 点 更 为 明显 。 但 是 它 的 交互 性 本 质 要 求 往返 延迟 比较 小 ， 并 且 这 一 点 并 不 总 是 能 达到 。 

视频 点 播 服务 : 它们 以 数字 的 形式 提供 视频 信息 ， 它 们 从 在 线 的 存储 系统 中 查询 数据 并 将 这 
些 数据 传输 到 终端 用 户 的 显示 器 上 。 当 有 充足 的 网 络 带宽 及 视频 服务 器 和 接收 站 是 专用 的 时 ， 这 
些 应 用 可 被 成 功 执行 。 它 们 也 要 在 目的 地 采用 相当 大 的 缓存 。 
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高 交互 性 的 应 用 程序 会 遇 到 更 多 的 问题 。 许 多 多 媒体 应 用 程序 是 合作 性 的 (涉及 多 个 用 户 )， 
并 且 是 同步 的 (需要 紧密 地 协调 用 户 的 活动 )。 它 们 的 应 用 环境 和 场景 各 种 各 样 ， 例 如 ， 

。 因 特 网 电话 ， 稍 后 详 述 。 

。 一 个 简单 的 涉及 两 个 或 多 个 用 户 的 视频 会 议 ， 每 一 个 用 户 使 用 装备 有 数字 摄像 机 、 麦 克 风 、 
音 输 出 设备 和 视频 显示 设备 的 工作 站 。 有 很 多 支持 简单 视频 会 议 的 应 用 软件 (例如 ， 

CUSeeMe[Dorcey 1995]、 NetMeeting[www.microsoft.com III])、 iChat AV[Apple Computer 

2004]) ， 但 它 的 性 能 受到 带宽 和 延迟 的 限制 。 

。 一 个 音乐 排练 程序 使 音乐 家 可 以 在 不 同 的 地 点 进行 合 练 [Konstantas et al. 1997]。 这 是 一 个 有 

特殊 要 求 的 多 媒体 应 用 程序 ， 因 为 它 的 同步 限制 很 严格 。 





这 样 的 应 用 程序 有 如 下 需求 : 

低 延 迟 的 通信 : 往返 延迟 为 100 ~300ms， 这 样 在 用 户 之 间 的 交互 才 会 看 起 来 是 同步 的 。 

同步 的 分 布 状态 : 如 果 一 个 用 户 将 视频 流 停止 在 给 定 的 帧 上 ， 那 么 其 他 用 户 也 应 该 看 到 视频 在 
该 帧 上 停止 。 

媒体 同步 : 音乐 合奏 的 所 有 参与 者 都 应 该 几乎 在 同一 时 间 (Konstants 等 [1997] 指 出 它 的 同步 
需要 限制 在 50ms 内 ) 内 听 到 其 演奏 。 独 立 的 声 道 和 视频 流 应 该 保持 “ 音 层 同 步 "， 例 如 ， 当 用 户 对 
于 一 段 视频 回放 进行 实时 评论 时 ， 或 者 用 户 在 使 用 非 本 地 的 卡拉 OK 伴唱 应 用 时 。 

外 部 同步 : 在 会 议 系统 和 其 他 合作 性 的 应 用 程序 中 ， 系 统 中 可 能 会 存在 其 他 形式 的 活动 数据 ， 
例如 ,计算机 生成 的 动画 、CAD 数 据 、 电 子 白板 以 及 共享 的 文档 。 对 这 些 数据 的 更 新 必须 是 分 布 
式 的 ， 并 且 还 必须 近似 地 和 基于 时 间 的 多 媒体 数据 流 同步 。 

这 些 应 用 程序 只 能 在 包含 严格 的 QoS 管理 方案 的 系统 上 才能 成 功 地 运行 。 


因特网 电话 一 一 VolP 

因特网 并 不 是 为 实时 交互 应 用 (例如 电话 ) 设计 的 ,但 是 随 着 因特网 核心 组 件 一 一 主干 网 
的 速度 达到 10 一 40Gbps， 而 且 连 接 主干 网 的 路 由 器 也 有 相当 强 的 性 能 一 一 的 功能 和 性 能 增强 ， 
因特网 已 经 可 以 为 实时 交互 应 用 提供 服务 。 因 特 网 核心 组 件 经 常 运 行 在 较 低 的 负载 下 (<10% 
带宽 利用 率 )， 而 且 很 少 因 资 源 竞 争 造 成 IP 传 输 延 迟 或 丢失 。 

这 样 ， 就 可 以 先 将 数字 化 的 声音 采样 流 作为 没有 服务 质量 要 求 的 UDP 分 组 ， 将 其 从 声音 源 传 
输 至 目的 地 ， 从 而 实现 在 公共 因特网 上 构建 电话 应 用 。Voice-over-IP (VoIP) 应 用 ， 例 如 Skype 
和 Vonage， 就 是 基于 这 项 技术 ， 体 现 声音 特点 的 即时 通信 应 用 ， 例 如 AOL Instant Messaging、 
Apple iChat AV 和 Microsoft NetMeeting 也 是 基于 此 项 技术 。 

当然 ， 那 些 都 是 实时 交互 应 用 ， 因 而 延迟 性 是 一 个 很 重要 的 问题 。 正 如 在 第 3 章 讨论 的 ，IP 
分 组 在 经 过 每 一 个 路 由 器 时 ， 都 不 可 避免 地 发 生 延 迟 。 在 路 径 较 长 的 情况 下 ， 这 些 延 迟 的 积累 很 
容易 超过 150ms， 于 是 用 户 在 对 话 交互 中 ， 便 可 以 察觉 这 种 延迟 。 正 是 由 于 这 个 原因 ， 长 距离 的 
(尤其 是 洲际 间 的 ) 因特网 电话 服务 产生 的 延迟 会 比 使 用 常规 电话 网 络 的 电话 服务 的 延迟 大 得 多 。 

然而 , 更 多 的 声音 传输 仍然 是 通过 因特网 进行 的 , 而 且 其 与 传统 电话 网 的 整合 也 正在 进行 中 。 
SIP (会 话 初始 化 协议 ，RFC 2543 定 义 [Handley et al. 1999]) 是 一 个 在 因特网 上 建立 声音 电话 (以 
及 其 他 服务 ， 例 如 即时 通信 ) 的 应 用 层 协议 。 在 世界 各 地 ， 都 有 连接 常规 电话 网 络 的 网 关 ， 它 们 
允许 从 连接 在 因特网 上 的 设备 发 出 的 呼叫 ， 通 过 因特网 的 传输 ， 到 达 常 规 电话 或 个 人 电脑 。 
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匮乏 区 许多 当今 的 计算 机 系统 都 提供 了 处 理 多 媒体 数据 的 能 力 ， 但 是 所 提供 的 资源 还 非常 有 
限 。 特 别 是 处 理 大 量 的 音频 和 视频 数据 流 时 ， 许 多 。 六 二 的 视 
系统 受 其 能 支持 的 流 的 数量 和 质量 的 限制 。 这 种 情 。 ” 频 应 用 
况 被 描述 为 蔽 过 区 [Anderson et al. 1990b]。 当 某 一 

类 的 应 用 程序 位 于 这 一 区 域 时 ， 为 了 提供 所 需 的 服 。 可 用 
务 ， 系 统 需 要 小 心地 分 配 和 调度 它 的 资源 (参见 图 。” 
17-2) 。 在 到 达 匮 乏 区 之 前 ， 系 统 用 于 执行 相关 应 网 络 
用 程序 的 资源 并 不 充足 。 在 20 世 纪 80 年 代 中 期 前 ， 文件 访问 
多 媒体 应 用 程序 的 处 境 便 是 如 此 。 一 旦 应 用 程序 离 





远程 
开 了 匮乏 区 ， 系 统 就 可 以 有 充足 的 资源 来 提供 此 服 登录 
务 ， 其 至 在 最 坏 的 情况 下 和 没有 专门 的 管理 机 制 下 1980 1990 2000 
也 是 如 此 。 图 17-2 计算 和 通信 资源 的 匮乏 区 


系统 性 能 的 最 新 进展 主要 在 于 提高 多 媒体 数据 
的 质量 ， 以 包括 更 高 的 帧 传输 率 和 更 好 的 视频 数据 流 的 分 辩 率 ， 或 者 是 在 像 视频 会 议 系统 这 样 的 
应 用 中 支持 并 发 的 多 数据 流 。 但 是 ， 一 些 对 多 媒体 数据 质量 要 求 极 高 的 应 用 ， 例 如 虚拟 现实 和 实 
时 流 处 理 (“特殊 效果 ”)， 对 于 多 媒体 数据 质量 的 要 求 几乎 是 无 止境 的 。 

17.2 节 我 们 将 回顾 多 媒体 数据 的 特征 ，17.3 节 将 介绍 为 了 实现 QoS 管理 而 采取 的 匮乏 资源 的 分 
配方 法 ，17.4 节 讨论 资源 调度 方法 ，17.5 节 介绍 在 多 媒体 系统 中 优化 数据 流 的 方法 。17.6 节 介绍 
Tiger 视 频 文件 服务 器 ， 这 是 一 个 用 于 将 视频 流 并 发 地 传输 到 大 量 客户 的 系统 ， 该 系统 的 可 扩展 开 
销 很 低 。 


17.2 多 媒体 数据 的 特征 


我 们 已 经 说 过 ， 视 频 和 音频 数据 是 连续 的 和 基于 时 间 的 。 我 们 怎样 更 精确 地 定义 其 特征 呢 ? 
“连续 性 ”一 词 表示 的 是 从 用 户 观点 看 到 的 数据 特征 。 实 际 上 ， 连 续 的 媒体 是 由 一 系列 离散 值 组 
成 的 ， 后 到 达 的 值 会 替换 先 到 达 的 值 。 例 如 ， 为 了 给 出 一 个 电视 画面 质量 的 动画 ， 其 图 像 阵 列 值 
每 秒 要 更 新 25 次 ， 为 了 传播 电话 质量 的 语音 信息 ， 其 声音 振幅 值 每 秒 要 更 新 8000 次 。 

因为 音频 和 视频 数据 流 中 的 定时 数据 元 素 定义 了 数据 流 的 语义 或 “内 容 "， 所 以 多 媒体 数据 流 
被 称 为 是 基于 时 间 (或 等 时 ) 的 。 由 于 数据 值 被 播放 和 记录 的 时 间 会 影响 数据 的 正确 性 ， 因 此 ， 
当 支 持 多 媒体 应 用 程序 的 系统 处 理 连续 的 数据 时 ， 它 需要 保持 数据 的 时 序 。 

多 媒体 数据 流 的 数据 量 通常 很 大 ， 因 此 ， 支 持 多 媒体 应 用 程序 的 系统 必须 比 传统 的 系统 有 更 
大 的 数据 吞吐 量 。 图 17-3 给 出 了 一 些 常用 的 数据 速率 和 帧 /采样 频率 。 我 们 注意 到 ， 其 中 有 些 系统 
的 资源 需求 比较 大 。 特 别 是 在 视频 系统 中 ， 为 了 获得 较 好 的 质量 ， 必 须 消耗 较 大 的 带宽 。 例 如 ， 
一 个 标准 的 TV 视频 数据 流 需要 120Mbps 以 上 的 带宽 ， 它 超过 了 100Mbps 以 太 网 所 能 提供 的 带宽 。 
它 对 CPU 处 理 能 力 的 需求 也 随 之 扩大 。 例 如 ， 对 标准 TV 视频 数据 流 的 每 一 个 数据 帧 进行 拷贝 和 简 
单 转换 的 程序 至 少 要 消耗 一 个 400MHz CPU 处 理 能 力 的 10%。 在 处 理 高 清 电视 数据 流 ， 这 个 数字 会 
更 高 ， 并 且 许 多 像 视频 会 议 这 样 的 应 用 程序 需要 同时 处 理 多 个 视频 和 音频 流 。 因 此 必须 使 用 数据 
压缩 技术 ， 尽 管 压缩 可 能 会 增加 处 理 的 困难 。 

压缩 可 以 将 对 带宽 的 需求 减少 到 原来 的 11100~ 1/10， 但 它 不 会 影响 连续 数据 的 时 序 需 求 。 为 了 
设计 出 高 效 、 通 用 的 多 媒体 数据 流 表 示 和 压缩 方法 ， 人 们 进行 了 深入 的 研究 ， 并 定义 了 许多 标准 。 
这 些 工 作 的 成 果 包 括 一 些 数据 压缩 格式 ， 例 如 为 图 像 数据 设计 的 GIF、TIFF 和 JPEG 标 准 以 及 为 视频 
数据 流 设计 的 MPEG-1、MPEG-2 和 MPEG-4 标 准 。 在 这 里 ， 我 们 不 准备 详细 地 介绍 它们 。 其 他 一 些 
文献 介绍 了 媒体 类 型 、 数 据 表示 以 及 标准 等 内 容 ， 例 如 Buford[1994] 以 及 Gibbs 和 Tsichritzis[1994]， 
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并 且 站 点 [Multimedia Directory] 给 出 了 当前 多 媒体 标准 的 文档 以 及 其 他 资源 。 








数据 速率 采样 或 帧 
(近似 值 ) 大 小 
电话 交谈 64kbps 8 比特 
CD 质量 的 声音 1.4Mbps 16 比 特 
标准 TV 视频 120Mbps 最 高 640 x 480 
(未 压缩 ) 像素 x 16 比 特 
标准 TV 视频 1.5Mbps 可 变 的 
(用 MPEG-1 床 缩 ) 
HDTY 视频 1000 ~ 3000Mbps 最 高 1920 x 1080 
(未 压缩 ) ,像素 x 24 比 特 
HDTV 视 频 10~30 Mbps 可 变 的 
(用 MPEG-2 庄 缩 ) 








图 17-3 典型 多 媒体 数据 流 的 特征 


尽管 使 用 压缩 的 视频 和 音频 数据 减少 了 对 通信 网 络 的 带宽 需求 ， 但 它 增 加 了 在 源 端 和 目的 端 
处 理 资 源 的 负担 。 系 统 需 要 使 用 特殊 的 硬件 来 处 理 和 发 送 视频 和 音频 信息 一 一 为 个 人 计算 机 设计 的 
视频 卡 上 包含 视频 和 音频 的 编码 /解码 器 。 但 是 随 着 个 人 计算 机 和 多 处 理 器 体系 结构 功能 的 增强 ， 
系统 可 以 用 软件 编码 和 解码 过 滤器 来 完成 上 述 功 能 。 这 种 解决 方法 对 特定 应 用 的 数据 格式 、 特 殊 
目的 的 应 用 逻辑 以 及 同时 处 理 多 个 媒体 流 提 供 了 更 好 的 支持 ， 所 以 具有 更 好 的 灵活 性 。 

用 于 MPEG 视 频 格式 的 压缩 方法 是 非 对 称 的 ， 包 括 一 个 复杂 的 压缩 算法 和 一 个 相对 简单 的 解压 
算法 。 这 一 点 在 桌面 会 议 中 是 有 用 的 ， 因 为 在 桌面 会 议 中 ， 通 常 是 由 硬件 编码 器 来 执行 压缩 ， 而 
由 软件 对 到 达 每 个 用 户 计算 机 的 多 个 数据 流 解压 ， 这 样 可 以 不 必 考 虑 每 个 用 户 计算 机 上 的 解码 器 
的 个 数 ， 而 会 议 的 参与 者 数目 可 以 动态 地 变化 。 


17.3 服务 质量 管理 


当 多 媒体 应 用 程序 运行 在 由 个 人 计算 机 组 成 的 网 络 上 时 ， 它 们 需要 对 位 于 应 用 程序 的 工作 站 
(处 理 器 局 期、 主线 周期 、 缓 冲 区 容量 ) 和 网 络 (物理 传输 连接 、 开 关 、 网 关 ) 上 的 资源 进行 竞争 。 
工作 站 和 网 络 必 须 同 时 支持 多 个 多 媒体 程序 和 传统 应 用 程序 。 在 多 媒体 应 用 程序 和 传统 应 用 程序 
间 有 竞争 ， 在 不 同 的 多 媒体 应 用 程序 之 间 甚 至 在 单个 应 用 程序 的 多 媒体 数据 流 之 间 都 可 能 有 竞争 。 

在 多 任务 操作 系统 和 共享 网 络 中 ， 用 于 不 同 任务 的 物理 资源 是 可 以 并 发 使 用 的 。 在 多 任务 操 
作 系 统 中 ， 中 央 处 理 器 轮流 执行 每 一 个 任务 (或 进程 )， 或 者 采用 某 种 基于 “ 尽 可 能 优化 调度 的 ” 
调度 方案 在 当前 竞争 处 理 器 资源 的 任务 中 选 出 一 个 ， 并 调度 它 到 处 理 器 上 运行 。 

网 络 用 来 使 不 同 来 源 的 消息 交织 在 一 起 传输 ， 它 允许 多 个 虚拟 通道 存在 于 同一 个 物理 通道 上 。 
以 太 网 这 一 主要 的 局 域 网 技术 以 最 佳 方式 来 管理 共享 的 传输 介质 。 当 介质 空间 时 ， 任 何 节点 都 可 
以 使 用 它 。 但 是 可 能 会 发 生 分 组 冲突 ， 当 发 生 冲 突 时 ， 节 点 会 等 待 随机 的 一 段 时 间 ， 然 后 重 发 分 
组 ， 以 便 防 止 冲 窒 。 当 网 络 负载 很 重 时 ， 很 容易 发 生 冲 突 ， 这 种 方案 在 这 种 情况 下 不 能 提供 关于 
带宽 和 延迟 的 任何 保证 。 

这 些 资 源 分 配方 案 的 主要 特点 是 : 当 对 资源 的 需求 增加 时 ， 它 们 将 资源 更 稀 朴 地 分 配给 每 个 
竞争 资源 的 任务 。 共 享 处 理 器 周期 和 网 络 带宽 的 轮转 方法 和 其 他 最 优 方法 都 不 能 满足 多 媒体 应 用 
程序 的 需求 。 显 而 易 见 ， 及 时 地 处 理 和 传输 多 媒体 数据 流 对 它们 而 言 是 非常 关键 的 。 延 迟 的 传输 
数据 是 没有 价值 的 。 为 了 实现 及 时 传输 ， 应 用 程序 要 保证 在 需要 的 时 候 能 得 到 必要 的 资源 。 

为 了 提供 这 一 保障 而 进行 的 资源 管理 和 分 配 称 为 服务 质量 管理 。 图 17-4 显 示 了 运行 在 两 个 个 


人 计算 机 上 一 个 简单 的 多 媒体 会 议 应 用 程序 的 底层 组 件 ， 使 用 软件 方式 进行 数据 压缩 和 格式 转换 。 
白色 方 框 表示 其 资源 需求 会 影响 应 用 程序 的 服务 质量 的 软件 组 件 。 


白色 方 框 表示 媒体 处 理 组 件 ， 其 中 多 数 是 用 软件 实现 的 ， 包 括 : 
codec: 编码 /解码 过 滤器 
mixer: 声音 合成 组 件 


图 17-4 多 媒体 应 用 程序 典型 的 底层 组 件 


这 个 图 给 出 了 多 媒体 软件 常用 的 抽象 体系 结构 ， 其 中 连续 的 媒体 数据 流 (视频 帧 、 音 频 采 样 ) 
被 一 系列 进程 处 理 ， 并 通过 进程 间 的 连接 在 进程 间 传 输 。 这 些 进程 产生 、 传 输 和 消耗 连续 的 多 媒 
体 数据 流 。 这 些 进程 间 的 连接 使 多 媒体 元 素 的 源 端 和 目标 端 连接 在 一 起 ， 在 目标 端 ， 多 媒体 数据 
被 输出 或 者 被 消耗 。 进 程 间 的 连接 可 以 由 网 络 连接 实现 ， 当 源 和 目标 端的 进程 位 于 同一 台 计 算 机 
上 时 ， 这 些 连 接 也 可 以 由 内 存 内 部 传输 实现 。 当 多 媒体 数据 元 素 及 时 地 到 达 目标 端 时 ， 系 统 必须 
划分 出 充分 的 CPU 时 间 、 内 存 容 量 和 网 络 带宽 给 处 理 这 项 任务 的 进程 。 同 时 ， 系 统 应 调度 这 些 进 
程 ， 使 它们 能 充分 地 使 用 资源 以 便 能 及 时 向 下 一 个 处 理 进程 传输 数据 元 素 。 

在 图 17-5 中 ， 我 们 列 出 了 图 17-4 中 主要 的 软件 组 件 和 网 络 连接 所 需要 的 资源 (两 幅 图 中 的 字母 
是 相对 应 的 ) 。 显 然 ， 系 统 中 需要 一 个 软件 组 件 负责 分 配 和 调度 这 些 资源 ， 这 样 才能 保证 能 使 用 图 
中 所 示 的 资源 。 我 们 把 这 一 软件 组 件 称 为 服务 质量 管理 器 。 





所 需要 的 资源 
摄像 机 输出 : 10 帧 / 秒 ， 原 始 视频 数据 
640 x 480 x 16 比 特 
A Codec 输入 : 10 帧 / 秒 ， 原 始 视频 4 每 100ms 需 CPU10ms， 
输出 : MPEG-1 数 据 流 10MB RAM 
B Mixer 输入 : 2 x 44kbps 音 频 好 每 100ms 需 CPUlms; 
输出 : 1 x 44kbps 音 频 1]MB RAM 


H 窗 口 系统 输入 : 可 变 互 前 每 100ms 需 CPU5ms， 
输出 : 50 帧 / 秒 帧 缓冲 区 5MB RAM 
K 网 络 连 接 输入 /输出 : MPEG-1 数 据 流 ， 5 互 的 1.5Mbps， 低 丢失 率 的 
大 约 1.5Mbps 数据 流 协 议 
L 网 络 连接 输入 /输出 ，44kbps 音 频 f 44kbps， 非 常 低 丢 失 率 
的 数据 流 协 议 


图 17-5 图 17-4 中 应 用 程序 组 件 的 QoS 规约 
图 17-6 以 流程 图 的 形式 说 明了 QoS 管理 器 的 职责 。 在 下 面 的 两 小 节 中 ， 我 们 将 介绍 QoS 管理 器 
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A 
的 两 个 主要 任务 : 


许可 控制 。 i 





按 资 源 加 约 运行 应 用 程序 全 避 应 用 RS 
一 一 -一 


图 17-6 QoS 管理 的 任务 


服务 质量 协商 : 应 用 程序 向 QoS 管理 器 提出 自己 的 资源 需求 。QoS 管 理 器 根据 包含 可 用 资源 和 
当前 被 使 用 资源 信息 的 数据 库 来 评估 满足 这 些 需 求 的 可 能 性 ， 然 后 它 给 应 用 程序 一 个 肯定 或 否定 
的 答复 。 如 果 答 复 是 否定 的 ， 那 么 应 用 程序 会 被 重新 配置 ， 以 便 减 小 对 资源 的 需求 ， 然 后 系统 再 
重复 以 上 过 程 。 

许可 控制 : 如 果 资 源 评估 的 结果 是 肯定 的 ， 则 预 留 被 请 求 的 资源 ， 同 时 应 用 程序 获得 一 个 资源 
奖 约 ， 用 于 说 明 被 预 留 使 用 的 资源 。 该 契约 包含 一 个 时 间 限 制 。 然 后 ， 应 用 程序 就 可 以 运行 了 。 如 
果 应 用 程序 的 资源 需求 发 生 了 变化 ， 它 必须 通知 QoS 管 理 器 。 如 果 资 源 需 求 减 小 了 ， 被 释放 的 资源 
被 加 入 到 数据 库 中 可 用 资源 中 ， 如 果 资 源 需 求 增加 了 ， 系 统 便 需要 进行 新 一 轮 的 协商 和 许可 控制 。 

在 本 节 的 最 后 ， 我 们 将 进一步 描述 执行 这 些 任务 所 使 用 的 技术 。 当 然 ， 当 一 个 应 用 程序 运行 
时 ， 它 需要 细 粒 度 的 资源 调度 (如 处 理 器 时 间 和 网 络 带宽 ) ， 以 保证 实时 进程 能 及 时 接收 到 已 分 配 
的 资源 。17.4 节 将 介绍 这 些 技术 。 


17.3.1 服务 质量 协商 


为 了 在 应 用 程序 和 底层 系统 之 间 进 行 QoS 协商 ， 应 用 程序 必须 向 QoS 管理 器 说 明 自己 的 QoS 需 
求 。 这 是 通过 传递 一 个 参数 集 实现 的 。 当 处 理 和 传输 多 媒体 数据 时 ， 有 三 个 参数 非常 重要 ， 它 们 
是 带宽、 延迟 和 丢失 率 。 

带宽 ， 多 媒体 数据 流 或 组 件 的 带宽 是 指数 据 流 过 的 速度 。 

延迟 : 延迟 是 指 单个 数据 元 素 从 源 端 传输 到 目的 端的 时 间 间 隔 。 当 系统 中 的 数据 量 大 小 以 
及 系统 负载 中 的 其 他 特征 变化 时 ， 延 迟 也 会 发 生变 化 。 这 种 变化 被 称 为 拌 动 ， 拌 动 是 延迟 产生 
的 第 一 个 问题 。 

于 失 率 : 因为 迟到 的 多 媒体 数据 是 没有 价值 的 ， 当 不 可 能 将 数据 及 时 传输 到 目的 端 时 ， 数 据 
元 素 将 被 丢掉 。 在 管理 良好 的 QoS 环 境 中 ， 这 种 情况 是 不 会 发 生 的 ， 但 是 因为 前 面 所 说 的 原因 ， 现 
在 很 少 有 这 样 良好 的 环境 。 而 且 ， 保 证 每 个 数据 元 素 都 能 及 时 传输 所 耗费 的 资源 通常 是 难以 承受 
人 
很 少 高 于 1%， 





并 目 在 质量 要 求 严格 的 应 用 程序 中 这 个 数字 会 更 低 。 
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这 三 个 参数 可 以 用 来 : 

1) 描述 特定 环境 中 多 媒体 数据 流 的 特点 。 例 如 ， 一 个 视频 数据 流 所 需要 的 平均 带宽 为 
1.3Mbps， 并 且 因 为 用 于 会 议 应 用 程序 ， 为 了 避免 会 话 间隔 ， 传 输 延 迟 最 多 为 130ms。 在 丢失 率 小 
于 1% 时 ， 目 的 端的 解压 算法 可 以 生成 可 以 接受 的 图 像 。 

2) 描述 用 于 传输 数据 流 的 资源 的 容量 。 例 如 ， 一 个 网 络 可 以 提供 带宽 为 64kbps 的 连接 ， 网 络 
的 排队 算法 保证 网 络 延迟 小 于 10ms ， 而 传输 系统 可 以 保证 丢失 率 小 于 1/10*。 

这 些 参 数 相 互 间 是 有 联系 的 ， 例 如 : 

* 现 代 系 统 的 丢失 率 很 少 与 因为 噪声 、 失 效 等 引起 的 比特 错误 相关 ， 而 是 与 缓冲 区 溢出 和 与 时 

闻 相 关 的 数据 延迟 有 关 。 因 此 ， 带 宽 和 延迟 越 大 ， 于 失 率 就 可 能 越 小 。 

“ 与 负载 相 比 ， 资 源 所 占 的 总 带宽 越 小 ， 就 有 越 多 的 信息 在 传输 端 聚 集 ， 因 此 存储 这 些 信息 的 

缓冲 区 就 应 越 大 以 避免 信息 丢失 。 缓 冲 区 越 大 ， 就 可 能 有 更 多 的 信息 等 待 被 服务 ， 因 此 ， 系 

统 就 可 能 有 更 大 的 延迟 。 

为 数据 流 设 定 QoS 参数 ”QoS 参数 的 值 可 以 显 式 地 给 出 例如， 图 17-4 中 摄像 输出 流 需要 带宽 : 
50Mbps， 延 迟 150ms， 至 失主 : 在 10" 帧 中 少 于 1 帧 ) ， 也 可 以 隐 式 地 给 出 〈 例 如， 对 于 网 络 连 接 K， 
输入 数据 流 的 带宽 等 于 对 摄像 机 输出 流 采 用 MPEG-1 压 缩 而 得 到 的 结果 )。 

但 是 更 常见 的 情况 是 我 们 需要 指定 一 个 值 和 一 个 允许 变化 的 范围 。 这 里 我 们 将 讨论 一 下 对 每 
个 参数 的 需求 : 

带宽 : 大 多 数 视频 压缩 技术 根据 原始 视频 数据 的 内 容 不 同 ， 生 成 的 帧 数据 流 的 大 小 也 不 同 。 
在 MPEG 中 ， 平 均 压 缩 比 为 1:50 到 1:100 之 间 ， 但 是 根据 数据 内 容 的 不 同 ， 压 缩 比 会 动态 变化 。 例 
如 ， 在 内 容 变化 很 快 时 ， 需 要 的 带宽 会 很 高 。 因 此 ， 通 常 以 最 大 值 、 平 均值 和 最 小 值 三 种 类 型 的 
值 来 表示 QoS 参数 ， 选 择 哪 种 值 依赖 于 当前 使 用 哪 种 QoS 管理 制度 。 

与 带宽 规约 相关 的 另 一 个 问题 是 网 络 的 数据 爆发 。 假 设 有 三 个 LIMbps 的 数据 流 。 其 中 一 个 数据 
流 每 秒 传输 一 个 LIM 比特 的 帧 ， 第 二 个 数据 流 是 一 个 传输 计算 机 生成 的 动画 元 素 的 异步 数据 流 ， 平 
均 带 宽 为 1IMbps， 第 三 个 数据 访 每 微 秒 发 送 100 比 特 的 声音 采样 信号 。 尽 管 这 三 个 数据 流 都 需要 同 
样 的 带宽 ， 它 们 的 传输 模式 差别 很 大 。 

一 种 解决 不 规则 数据 爆发 的 方法 是 在 传输 率 和 数据 帧 大 小 之 外 定义 爆发 参数 。 这 个 爆发 参数 
指定 可 能 提前 到 达 (也 就 是 说 ， 它 们 先 于 平常 的 速率 到 达 ) 的 媒体 元 素 的 最 大 数目 。Anderson 
[1993] 使 用 的 线性 限制 的 到 达 处 理 (LBAP) 模型 将 任意 时 间 间 隔 t 内 的 数据 流 最 大 消息 数目 定义 
为 RttrB， 其 中 R 是 传输 速率 ，B 为 数据 爆发 的 最 大 数目 。 这 种 模型 的 优点 是 它 能 很 好 地 反映 多 媒 
体 数据 源 的 特点 : 从 磁盘 上 读 出 的 多 媒体 数据 通常 以 块 方式 传输 ， 而 且 从 网 络 接收 的 数据 通常 是 
以 小 数据 包 序 列 的 形式 到 达 。 在 这 种 情况 下 ， 爆 发 参数 提供 了 避免 丢失 而 需要 的 缓冲 区 空间 
大 小 。 

延迟 : 多 媒体 中 的 一 些 时 间 性 的 需求 来 源 于 数据 流 本 身 : 如果 不 能 以 和 数据 流传 输 同样 的 一 
度 在 到 达 点 处 理 数据 帧 ， 则 等 待 处 理 的 数据 会 越 来 越 多 ， 最 终 会 超出 缓冲 区 的 容量 。 为 了 避免 这 
个 问题 ， 数 据 帧 滞留 在 缓冲 区 的 时 间 不 能 高 于 1R， 其 中 R 为 数据 流 中 帧 的 传输 率 ， 否 则 ， 缓 冲 区 
就 可 能 出 现 数据 堆积 。 如 果 发 生 了 数据 堆积 ， 除 了 处 理 和 传播 时 间 之 外 ， 积 压 数据 的 数目 和 大 小 
也 会 影响 数据 流 端 到 端 延迟 的 最 大 值 。 

另 一 种 延迟 需求 来 源 于 应 用 程序 环境 。 在 会 议 应 用 程序 中 ， 为 了 达到 参与 者 之 间 的 即时 交互 ， 
数据 流 端 到 端的 延迟 应 不 超过 150ms， 这 样 用 户 在 谈话 过 程 中 不 会 感觉 到 有 停顿 ， 而 在 播放 存储 视 
频数 据 的 系统 中 ， 为 了 保证 Pause 和 Stop 这 样 的 命令 发 出 后 能 及 时 得 到 响应 ， 最 大 的 延迟 应 在 
S00ms 左 右 。 

关系 到 多 媒体 数据 传输 延迟 的 第 三 种 情况 是 样 动 一 -传输 两 个 相 邻 帧 的 时 间 间 隔 的 变化 。 尽 管 
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大 多 数 多 媒体 设备 都 确保 数据 传输 是 没有 抖动 的 ， 但 软件 〈 例 如 ， 处 理 视频 帧 的 软件 解码 器 ) 必 
须 采 取 相 应 的 方法 来 避免 样 动 。 本 质 上 ， 使 用 缓存 可 以 解决 拌 动 问题 但 是 拌 动 的 时 间 范 围 必须 
有 一 个 限制 ， 这 是 因为 端 到 端的 整体 延迟 是 受 上 面 提 到 的 种 种 考虑 限制 的 ， 所 以 媒体 序列 的 回放 
要 求 媒体 数据 元 素 必须 在 固定 的 时 间 限制 内 到 达 。 

去 失 率 : 丢失 率 是 最 难 指定 的 QoS 参数 。 通 常 ， 丢 失 率 来 源 于 对 缓冲 区 溢出 和 延迟 消息 的 概率 
统计 。 这 种 计算 要 么 基于 最 坏 情形 的 假设 ， 要 么 基于 标准 分 布 。 这 两 种 方法 都 不 能 很 好 地 反映 实 
际 情况 。 然 而 ， 系 统 必须 使 用 丢失 率 说 明 来 限定 带宽 和 延迟 参数 ， 两 个 应 用 程序 可 能 拥有 同样 的 
带宽 和 延迟 特征 ， 但 一 个 应 用 程序 丢失 率 为 20%， 而 另 一 个 应 用 程序 丢失 率 为 百 万 分 之 一 时 ， 它 们 
的 差别 可 能 就 会 很 大 。 

在 带宽 参数 说 明 中 ， 不 仅仅 是 在 一 段 时 间 内 发 送 的 数据 总 量 很 重要 ， 在 这 段 时 间 间 隔 内 数 
据 的 分 布 也 很 重要 ， 丢 失 率 参 数 说 明 需 要 确定 数据 丢失 的 时 间 间 隔 的 期 望 值 。 特 别 的 ， 在 无 穷 
长 时 间 间 隔 内 考虑 丢失 率 是 没有 用 的 ， 这 是 因为 在 一 个 短期 内 丢失 的 数据 可 能 会 明显 超过 长 期 
的 丢失 率 。 

流量 调整 ”流量 调整 是 用 来 描述 使 用 输出 缓冲 来 使 数据 元 素 流 平滑 这 一 方法 的 术语 。 多 媒体 数 
据 流 的 带宽 参数 通常 给 出 : 在 数据 流传 输 时 对 实际 传输 模式 的 理想 化 近似 。 实 际 的 传输 模式 越 接 
近 这 一 描述 ， 系 统 就 能 越 好 地 处 理 传输 流量 ， 特 别 是 在 系统 使 用 为 周期 性 请 求 设计 的 调度 方法 时 ， 
这 一 特点 就 会 越 明 显 。 

带宽 的 LBAP 模 型 要 求 对 多 媒体 数据 流 的 爆发 进行 管理 。 通 过 在 源 端 加 入 一 个 缓冲 区 并 定义 数 
据 元 素 离开 缓冲 区 的 方法 ， 该 模型 可 管理 任何 数据 流 。 

漏 桶 图 ( 见 图 17-7a) 形象 化 地 说 明了 这 种 方法 : 可 以 向 
这 个 桶 中 注水 ， 直 到 它 满 了 为 止 ， 因 为 在 桶 底 有 一 个 漏 


洞 ， 水 可 以 连续 地 流出 。 漏 桶 算法 可 以 保证 数据 流 的 传 令 牌 生成 器 
输 速率 不 超过 R。 缓 冲 区 B 的 大 小 被 定 为 在 没有 丢失 元 素 

的 情况 下 数据 流 爆发 的 最 大 值 。 数 据 元 素 停留 在 桶 中 的 CD 

时 间 和 B 的 大 小 有 关系 。 | | 


漏 桶 算法 完全 消除 了 数据 爆发 。 只 要 带宽 在 任意 时 。 。) 油 打 A 
间 间 隔 内 都 是 有 限制 的 ， 以 上 的 消除 就 不 是 必须 的 。 令 ry pi 

牌 桶 算法 (参见 图 17-7b) 通过 在 数据 流 空闲 时 允许 较 大 

的 数据 爆发 来 做 到 这 一 点 。 它 是 漏 桶 算法 的 变种 ， 其 中 发 送 数据 的 令 牌 以 固定 的 速率 R 生 成 。 令 牌 
被 收集 到 一 个 大 小 为 B 的 桶 中 。 只 有 当 桶 里 至 少 有 S 个 令 牌 时 ， 大 小 为 S 的 数据 才能 被 传输 。 然 后 ， 
发 送 程序 删除 这 S 个 令 牌 。 令 牌 桶 算法 保证 在 任意 时 间 间 隔 t 内 数据 的 传输 量 不 超过 RttB。 因 此 ， 
它 是 LBAP 模 型 的 一 个 实现 。 

在 令 牌 桶 系统 中 ， 仅 当 数据 流 空 闪 了 一 段 时 间 后 ， 大 小 为 B 的 传输 高 峰 才 会 出 现 。 为 了 训 免 数 
据 爆 发 ， 可 以 在 令 牌 桶 后 面 放置 一 个 简单 的 漏 桶 。 为 了 使 这 种 配置 方案 起 作用 ， 这 个 桶 的 流动 过 
率 F 必 须 远大 于 R。 它 的 唯一 目的 是 分 解 大 的 数据 爆发 。 

流 规约 QoS 参数 的 集合 通常 称 为 流 规约 。 现 有 的 几 个 流 规约 都 比较 相似 。 在 因特网 RFC 
1363[Partridge 1992] 中 ， 流 规约 被 定义 为 11 个 16 位 的 数字 值 (参见 图 17-8) ， 它 以 下 面 的 方式 描述 
上 面 介绍 的 QoS 参数 ; 

“最 大 传输 单元 和 最 大 传输 率 决定 数据 流 所 需要 的 最 大 带宽 。 

* 令 牌 桶 大 小 和 速率 决定 数据 的 爆发 量 。 

“通过 应 用 程序 可 以 发 现 的 最 小 延迟 (因为 我 们 希望 避免 对 短 延迟 的 过 度 优化 ) 和 其 可 以 接受 

的 最 大 拉动 来 描述 延迟 特性 。 
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。 通 过 在 给 定时 间 间 隔 内 可 接受 的 丢失 总 数 和 最 大 连续 丢失 数目 来 定义 丢失 特征 。 

还 有 许多 表示 每 个 参数 组 的 方法 。 在 SRP[Anderson et al. 1990a] 中 ， 通 过 一 个 最 大 超前 工作 参 
数 来 给 出 数据 流 的 爆发 量 ， 该 参数 定义 了 在 任意 时 间 点 上 提前 到 达 的 数据 流 信息 的 数量 。Ferrari 和 
Verma[1990] 给 出 了 一 个 最 坏 延迟 量 : 如 果 系 统 不 能 保证 在 这 一 时 间 间 隔 内 传输 数据 ， 那 么 对 应 用 
程序 来 说 这 一 数据 传输 是 没有 用 的 。 在 RFC 1190 的 ST-II 协 议 规约 [Topolcic 1990] 中 ， 丢 失 率 表示 
为 每 一 个 包 被 丢失 的 概率 。 

上 面 的 例子 给 出 了 QoS 值 的 多 种 表示 。 如 果 系 统 支持 有 限 的 应 用 程序 和 数据 流 ， 定 义 一 个 离散 
的 QoS 类 集合 就 可 能 足够 了 : 例如 ， 电 话 质量 和 高 保 真 音频 ， 实 况 和 回放 视频 等 。 所 有 系统 组 件 必 
须 显 式 地 知道 这 些 类 的 需求 。 当 其 中 一 些 通信 类 型 混合 时 ， 
系统 也 可 以 被 配置 。 

协商 过 程 ”对 分 布 式 多 媒体 应 用 程序 而 言 ， 一 个 数据 
流 的 组 件 可 能 位 于 多 个 节点 上 。 在 每 个 节点 上 有 一 个 QoS 
管理 器 。 进 行 一 个 QoS 协商 的 最 简单 办 法 是 跟随 从 源 端 到 





























可 被 发 现 的 最 小 延迟 
目的 端的 数据 流 。 源 端 组 件 通 过 向 本 地 QoS 管理 器 发 送 一 延迟 变化 的 最 大 值 
个 流 规约 来 启动 协商 过 程 。QoS 管 理 器 可 以 检查 数据 库 中 可 以 被 发 觉 的 丢失 
记录 的 可 用 资源 并 决定 所 请 求 的 QoS 是 否 能 满足 。 如 果 这 人 
一 应 用 程序 涉及 其 他 系统 ， 那 么 流 规约 被 传送 到 下 一 个 请 。 启明 i 
求 资源 的 节点 。 这 一 流 规约 遍历 所 有 的 节点 ， 直 到 它 最 终 
到 达 目的 端 。 然 后 ， 系 统 可 以 得 出 此 QoS 请 求 是 否 能 满足 BS I 0 


的 结论 ， 并 将 该 信息 传输 回 源 端 。 这 种 简单 的 协商 方法 可 以 满足 多 种 目的 ， 但 它 没有 考虑 到 在 不 
同 节 点 上 的 并 发 QoS 协商 之 间 可 能 会 发 生 冲 突 。 为 了 彻底 解决 这 种 问题 ， 我 们 需要 一 个 分 布 事务 式 
的 QoS 协商 过 程 。 

应 用 程序 很 少 拥有 固定 的 QoS 需求 。 相 对 于 返回 一 个 关于 QoS 请 求 是 否 能 被 满足 的 布尔 值 的 方 
式 ， 另 一 种 更 好 的 方法 是 由 系统 决定 可 以 提供 什么 样 的 资源 ， 并 让 应 用 程序 来 决定 是 否 可 以 接受 。 
为 了 避免 过 度 优化 的 QoS ， 或 者 为 了 在 所 需 的 服务 质量 明显 不 能 达到 的 情况 下 放弃 这 一 协商 ， 通 常 
应 用 程序 会 指定 每 个 QoS 参数 的 预期 值 和 最 坏 值 。 一 个 应 用 程序 可 能 会 指定 它 需 要 1.53Mbps 的 带宽 ， 
但 在 1 Mbps 带 宽 的 情况 下 它 也 能 处 理 ， 或 者 延迟 应 该 为 200ms， 但 300ms 是 它 可 接受 的 最 坏 情 况 。 
因为 一 次 只 能 优化 一 个 参数 ， 所 以 像 HeiRAT[Vogt et al.1993] 这 样 的 系统 希望 用 户 只 定义 两 个 参数 
的 值 ， 并 由 系统 来 优化 第 三 个 参数 。 , 

如 果 一 个 数据 流 包 含 多 个 槽 ， 系 统 将 根据 数据 流 分 支 确定 协商 路 径 。 作 为 以 上 方案 的 扩展 ， 中 
间 节 点 可 以 聚集 来 自 目的 端的 QoS 反馈 消息 并 生成 QoS 参数 在 最 坏 情况 下 的 值 。 这 时 ， 可 用 的 带宽 
为 各 目的 端 可 用 带宽 的 最 小 值 , 延迟 为 各 目的 端 延迟 的 最 大 值 , 丢失 率 为 各 目的 端 丢 失 率 的 最 大 值 。 
像 SRP、ST-II 和 RCAP[Banerjea and Mah 1991] 这 样 的 由 发 送 端 发 起 的 协商 协议 使 用 了 以 上 过 程 。 

在 目的 端 是 异 质 的 情况 下 ， 通 常 不 适合 在 所 有 目的 端 上 使 用 一 个 公共 的 最 坏 情 况 的 QoS。 相 反 ， 
每 一 个 目的 端 应 接收 最 好 的 QoS 可 能 值 。 这 就 要 求 由 接收 端 发 起 协商 ， 而 不 是 由 发 送 方 发 起 协商 过 
程 。RSVP[Zhang et al. 1993] 就 属于 这 一 类 QoS 协商 协议 ， 其 中 由 目的 端 连 接 数 据 流 。 源 端 将 现 有 的 
数据 流 和 它们 的 内 在 特征 通知 给 各 个 目的 端 。 目 的 端 便 可 以 连接 到 数据 流 经 过 的 最 近 节 点 ， 并 从 那 
里 获得 数据 。 为 了 使 它们 能 获得 适合 QoS 的 数据 ， 它 们 可 能 需要 使 用 过 滤 ( 见 17.5 节 ) 这 样 的 技术 。 


17.3.2 许可 控制 


许可 控制 管理 对 资源 的 访问 ， 以 避免 资源 过 载 ， 并 防止 资源 接收 不 可 能 实现 的 请 求 。 如 果 新 
的 多 媒体 数据 流 的 资源 需求 违反 了 已 有 的 QoS 保证 ， 它 涉及 关闭 服务 请 求 。 
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一 个 许可 控制 方案 是 基于 整个 系统 容量 和 每 个 应 用 程序 产生 的 负载 这 两 方面 的 知识 的 。 

应 用 程序 的 带宽 需求 规约 会 反映 应 用 程序 需要 的 最 大 带宽 、 保 证 其 运行 的 最 小 带宽 ， 或 者 是 它们 
之 间 的 平均 值 。 相 应 的 ， 许 可 控制 方案 可 以 基于 这 些 值 之 一 进行 资源 分 配 。 

如 果 所 有 的 资源 只 由 一 个 分 配器 控制 ， 那 么 许可 控制 是 非常 简单 的 。 如 果 资 源 分 布 在 不 同 节 
点 上 ， 例 如 许多 局 域 网 环境 ， 那 么 可 以 使 用 一 个 集中 式 访问 控制 实体 ， 也 可 以 使 用 一 个 分 布 式 的 
许可 控制 算法 来 避免 并 发 许可 控制 的 冲突 。 工 作 站 的 总 线 仲 裁 算法 就 属于 这 一 类 算法 。 然 而 ， 热 
行 带宽 分 配 的 多 媒体 系统 并 不 控制 总 线 许 可 ， 因 为 总 线 带 宽 并 不 在 匮乏 区 内 。 

带宽 预 留 。 保证 多 媒体 数据 流 某 一 QoS 级 别 的 一 个 常用 方法 是 预 留 一 部 分 的 资源 带宽 ， 以 便 由 
它 独占 使 用 。 为 了 在 任 一 时 刻 实现 数据 流 的 需求 ， 需 要 为 它 预 留 最 大 带宽 。 这 是 给 提供 应 用 程序 
有 保障 的 QoS 的 唯一 可 能 的 方法 一 一 至 少 不 会 发 生 灾难 性 的 系统 故障 。 在 应 用 程序 不 能 适应 不 同 级 
别 的 QoS 或 者 当 其 质量 下 降 使 程序 不 可 用 的 情况 下 ， 程 序 可 以 使 用 这 种 方法 。 相 应 的 例子 包括 一 些 
医疗 应 用 系统 (在 X 光 视频 中 ， 某 症状 图 像 可 能 正好 位 于 丢失 的 帧 中 ) 和 视频 记录 系统 (视频 记录 
系统 需要 记录 每 一 时 刻 的 图 像 ， 丢 掉 的 帧 可 能 会 导致 缺陷 )。 

基于 最 大 需求 的 预 留 是 非常 简单 的 : 当 控制 访问 一 个 带宽 为 B 的 网 络 时 ， 仅 当 zb.<B 时 ， 带 
宽 为 b, 的 多 媒体 数据 流 s 才 能 允许 访问 。 这 样 ， 一 个 16Mb/s 的 令 牌 环 网 可 能 支持 10 个 1.5Mb/s 的 数 
字 视 频 流 。 

遗憾 的 是 ， 容 量 计算 并 不 总 是 和 在 网 络 中 一 样 简 单 。 为 了 以 同样 的 方式 分 配 CPU 带 宽 ， 系 统 
需要 知道 每 个 应 用 程序 进程 的 执行 概貌 。 然 而 ， 执 行 时 间 取 决 于 所 使 用 的 处 理 器 ， 并 且 不 容易 精 
确 估计 。 虽 然 存 在 儿 种 自动 计算 执行 时 间 的 方法 [Mok 1985，Kopetz et al. 1989]， 但 它们 都 没有 被 
广泛 应 用 。 通 常 通过 度量 来 决定 执行 时 间 ， 但 它 通常 有 很 大 的 错误 率 并 且 移 植 性 很 有 限 。 

对 于 MPEG 这 样 的 典型 的 编码 应 用 而 言 ， 应 用 程序 实际 使 用 的 带宽 可 能 比 最 大 带宽 小 得 多 。 预 
留 最 大 带宽 方法 可 能 会 导致 带宽 资源 的 浪费 ， 尽 管 新 的 资源 申请 可 以 被 满足 ， 即 ， 使 用 已 被 保留 
而 未 被 已 有 程序 实际 使 用 的 带宽 ， 但 是 系统 仍然 拒绝 其 申请 。 

统计 的 多 路 技术 因为 系统 中 可 能 存在 未 被 利用 的 资源 ,这 在 超额 预 留 资源 的 情况 下 经 常 发 生 。 
而 一 些 保证 技术 可 以 提供 使 用 这 些 资 源 的 一 些 (经 常 很 高 ) 可 能 性 ， 这 些 保证 通常 被 称 为 统计 保 
证 或 软 保证 ， 它 与 前 面 介绍 的 硬 保证 技术 不 同 。 因 为 不 考虑 最 坏 的 情况 ， 所 以 统计 保证 技术 可 以 
提供 更 高 的 资源 利用 率 。 但 是 如 果 仅仅 只 依据 最 小 或 平均 需求 来 分 配 资源 ， 那 么 瞬时 的 负载 高 峰 

可 能 会 导致 服务 质量 的 下 降 ， 应 用 程序 必须 能 处 理 这 样 的 服务 质量 降低 。 

统计 的 多 路 技术 是 基于 这 样 一 个 假设 , 对 大 量 数据 流 来 说 , 虽然 单个 的 数据 流 可 能 会 发 生变 化 ， 
但 这 些 数据 流 需 要 的 总 带宽 相对 稳定 。 它 假设 当 一 个 数据 流 发 送 大 量 的 数据 时 ， 就 有 可 能 有 另 一 个 
数据 流 发 送 较 小 的 数据 量 ， 这 样 总 带宽 需求 保存 平衡 。 当 然 这 些 数据 流 之 间 应 该 是 没有 联系 的 。 

正 像 试 验 所 显示 的 那样 [Leland et al. 1993]， 在 典型 环境 下 ， 多 媒体 数据 流量 并 不 符合 这 一 假 
设 。 假 设 有 大 量 的 数据 爆发 ， 那 么 总 流量 仍然 是 爆发 的 。 术 语 自 相似 被 应 用 于 这 种 现象 ， 它 表示 
总 流量 和 组 成 它 的 单个 流量 具有 相似 性 。 


17.4 资源 管理 


为 了 向 应 用 程序 提供 一 定 等 级 的 QoS 服 务 ， 系 统 不 仅 要 有 充分 的 资源 (性 能 )， 它 还 要 在 应 用 
程序 需要 时 有 能 力 将 这 些 资 源 提 供给 程序 使 用 (调度)。 
资源 调度 

系统 根据 进程 的 优先 级 来 为 其 分 配 资源 。 资 源 调度 器 根据 特定 的 标准 来 决定 进程 的 优先 级 。 
在 传统 的 分 时 系统 中 ，CPU 调 度 进程 基于 程序 的 响应 时 间 以 及 公平 原则 来 指定 优先 级 : WO 量 大 的 
进程 会 获得 高 优先 级 ， 这 样 可 以 保证 对 用 户 做 出 快速 响应 ， 与 CPU 联 系 紧密 的 任务 获得 低 优先 级 ， 
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并 二 系统 平等 对 待 同一 优先 级 的 进程 。 

多 媒体 系统 也 可 以 使 用 这 一 标准 ， 但 是 传输 单个 多 媒体 数据 元 素 的 时 间 限 制 改变 了 调度 问题 
的 本 质 。 为 了 解决 这 一 问题 ， 系 统 可 以 使 用 下 面 介 绍 的 实时 调度 算法 。 因 为 多 媒体 系统 必须 处 理 
离散 的 和 连续 的 媒体 ， 因 此 在 不 会 造成 离散 媒体 访问 和 其 他 交互 应 用 程序 饥饿 的 情况 下 ， 如 何 为 
依赖 时 间 的 数据 流 提供 充分 的 服务 是 一 个 巨大 的 挑战 。 

调度 方法 必须 应 用 到 (并 协调 ) 影响 多 媒体 应 用 程序 性 能 的 所 有 资源 。 通 常 的 情况 下 ， 系 统 
从 磁盘 上 读 取 多 媒体 数据 流 ， 并 将 其 通过 网 络 传 输 到 目的 机 器 。 在 目的 机 器 上 ， 该 数据 流 和 其 他 
来 源 的 数据 流 同 步 合 成 起 来 ， 并 最 终 显 示 出 来 。 在 这 个 例子 中 ， 系 统 需 要 的 资源 包括 磁盘 、 网 络 、 
CPU 以 及 内 存 和 总 线 带宽 。 

公平 调度 如 果 有 多 个 数据 流 竞争 同一 资源 ， 系 统 必须 考虑 公平 性 ， 防 止 不 正常 的 数据 流 占用 
过 多 的 带宽 。 保 证 公平 性 的 一 个 简单 方法 是 对 同一 优先 级 的 数据 流 使 用 轮转 调度 方法 。 在 
Nagle[1987| 中 ， 这 一 方法 是 基于 包 而 提出 的 。 在 Demers 等 [1989] 中 ， 这 种 方法 是 基于 比特 提出 的 ， 
因为 包 的 大 小 和 包 到 达 时 间 会 发 生变 化 ， 所 以 后 一 种 方法 提供 的 公平 性 较 好 。 这 些 方法 被 称 为 公 
平 排队 。 

数据 包 实际 上 不 能 按 比特 进行 发 送 ， 但 是 在 给 定 的 帧 速率 并 且 要 求 必须 完全 发 送 的 情况 下 ， 系 
统 可 以 计算 用 二 每 个 包 的 时 间 。 如 果 包 传输 是 基于 这 一 计算 结果 排序 的 ,那么 它 可 以 获得 接近 基于 
比特 的 轮转 传输 方法 所 产生 的 传输 结果 ， 除 非 有 个 非常 大 的 数据 包 需 要 传输 ， 这 时 它 会 阻塞 小 数据 
包 的 传输 ， 但 这 违背 了 基于 比特 的 调度 方案 。 然 而 ， 任 何 包 的 延迟 都 不 会 高 于 最 大 包 的 传输 时 间 ， 

所 有 的 基本 轮转 方案 都 为 每 一 个 数据 流 分 配 同 样 的 带宽 。 考 虑 到 单个 数据 流 的 带宽 ， 可 以 将 
基于 比特 的 方法 进行 扩展 ， 一 些 数据 流 可 以 在 每 个 周期 传输 更 多 的 比特 。 这 种 方法 称 为 基于 权 值 
的 公平 排队 。 

实时 调度 ”人们 已 经 开发 出 一 些 实时 调度 算法 来 满足 -- 些 应 用 程序 (如 航空 工业 中 过 程控 制 ) 
的 CPU 调度 需要 。 假 设 CPU 资 源 并 没有 被 过 度 分 配 (这 是 QoS 管理 器 的 任务 ) ， 调 度 算法 将 CPU 时 
间 片 以 某 种 方式 分 配给 多 个 进程 ， 而 这 种 分 配方 式 必须 保证 进程 能 及 时 完成 任务 。 

传统 的 实时 调度 方法 十 分 适合 规则 的 连续 多 媒体 数据 流 模型 。 最 早 时 间 限 制 优先 (EDF) 调 
度 方法 可 以 作为 这 些 方法 的 代名词 。EDF 调 度 器 根据 每 个 工作 项 的 时 间 限制 来 决定 下 一 个 要 处 理 
的 工作 项 ， 具有 最 早 时 间 限制 的 工作 项 优先 处 理 。 在 多 媒体 应 用 程序 中 ， 我 们 将 到 达 进 程 的 多 媒 
体 元 素 称 为 工作 项 。EDF 调 度 方法 被 证 明 在 基于 时 序 标准 分 配 资源 方面 是 最 优 的 ; 如果 系统 中 有 
一 个 调度 满足 了 所 有 的 时 序 需求 ， 那 么 EDF 调 度 将 能 找到 它 [Dertouzos 1974] 。 

EDF 调 度 方法 需要 在 每 个 消息 ( 即 每 个 多 媒体 元 素 ) 上 进行 调度 决策 。 如 果 它 用 于 调度 生存 
期 较 长 的 元 素 会 更 有 效 。 速 率 单调 (RM) 调度 方法 是 一 个 适用 于 实时 调度 周期 性 进程 的 著名 技术 ， 
它 可 以 实现 以 上 目标 。 系 统 根据 数据 流 的 速率 指定 其 优先 级 ， 数 据 流 的 工作 项 速率 越 高 ， 数 据 流 
的 优先 级 越 高 。 在 多 媒体 程序 使 用 的 带宽 低 于 69% 时 ，RM 调 度 方法 是 最 优 的 [Liu and Layland 
1973]。 使 用 这 样 的 分 配方 案 ， 剩 余 的 带宽 可 以 用 于 非 实时 应 用 程序 。 

为 了 应 付 爆发 的 实时 通信 量 ， 基 本 的 实时 调度 方法 应 该 被 调整 为 能 识别 有 严格 时 间 要 求 和 无 
产 格 时 间 要 求 的 连续 媒体 工作 项 。Govindan 和 Anderson[1991]j 介 绍 了 时 间 限 制 / 预 工作 调度 方法 。 
它 允 许 在 数据 爆发 时 连续 数据 流 中 的 消息 可 以 提前 到 达 ， 但 是 只 有 在 一 条 消息 的 正常 到 达 时 刻 才 
对 这 一 消息 使 用 EDF 调 度 。 


17.5 流 适应 


当 系 统 不 能 保证 特定 的 QoS， 或 者 当 系统 只 能 以 某 种 概率 保证 QoS 时 ， 应 用 程序 需要 相应 的 调 
整 自身 的 性 能 ， 以 便 适应 变化 的 QoS 级 别 。 对 于 连续 媒体 数据 流 而 言 ， 这 种 调整 将 转化 为 媒体 表示 


和 
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质量 的 不 同 级 别 。 

丢掉 部 分 信息 是 最 简单 的 调整 。 在 音频 数据 流 中 ， 因 为 它 的 采样 是 相互 独立 的 ， 因 此 这 种 方 
法 比较 容易 实现 ， 但 是 收听 者 会 立刻 发 现 这 种 丢失 。 在 Motion JPEG 编 码 技术 中 ， 因 为 它 的 视频 帧 
是 独立 的 ， 所 以 数据 丢失 还 是 可 以 容忍 的 。 在 MPEG 等 编码 机 制 中 ， 一 个 视频 帧 可 能 会 依赖 于 数 个 
相 邻 的 帧 ， 所 以 容忍 数据 丢失 的 能 力 比较 弱 : 系统 可 能 要 花费 一 段 时 间 从 错误 中 恢复 ， 并 且 这 种 
编码 机 制 会 放大 错误 。 

如 果 系 统 中 没有 足够 的 带宽 并 且 数 据 也 没有 丢失 ， 那 么 会 发 生 延 迟 。 对 于 非 交互 式 的 程序 而 
言 ， 这 是 可 以 接受 的 ， 尽 管 它 可 能 会 因为 数据 累积 在 源 端 或 目的 端 最 终 导致 缓冲 区 溢出 。 对 于 会 
议和 其 他 交互 式 的 应 用 程序 而 言 ， 延 迟 增加 是 不 可 接受 的 ， 或 者 延迟 只 能 持续 一 小 段 时 间 。 如 果 
一 个 数据 流 的 播放 时 间 延 迟 了 ， 它 的 播放 速率 应 该 被 加 快 ， 直 到 符合 正确 的 播放 时 间 表 为 止 : 当 
数据 流 被 延迟 时 ， 数 据 帧 在 它 可 用 时 就 应 该 立即 被 输出 。 


17.5.1 调整 


如 果 在 数据 流 的 目的 端 执行 流 适应 操作 ， 系 统 中 任 一 瓶颈 的 负载 非但 没有 被 碱 少 ， 并 且 系统 
仍然 会 过 载 。 为 了 解决 这 一 问题 ， 系 统 需要 在 数据 流 经 瓶颈 前 就 将 其 调整 到 可 用 带宽 可 以 承受 的 
范围 。 这 称 为 流 调整。 

当 实 时 数据 流 被 采样 时 ， 系 统 可 以 采用 流 调整 。 对 于 已 存储 的 数据 流 来 说 ， 流 调整 取决 于 编码 广 
法 压缩 数据 的 难 易 程 度 。 如 果 数 据 流 已 经 被 解压 缩 ， 为 了 实现 流 调整 ， 必 须 对 它 重新 压缩 ， 那 么 流 调 
整 会 变 得 很 麻烦 。 尽 管 所 有 的 流 调整 方法 都 是 相 类 似 的 对 给 定 信号 重 采样 ， 但 流 调整 算法 是 依赖 于 
媒体 的 。 对 音频 信息 来 说 ， 可 以 通过 减少 音频 采样 的 频率 来 实现 这 一 重 采样 过 程 。 也 可 以 通过 减少 立 
体 声 传输 中 的 一 个 声 道 来 实现 重 采样 。 这 个 例子 也 说 明 ， 不 同 的 流 调整 方法 在 不 同 的 粒度 上 工作 。 

下 列 的 流 调整 方法 适合 视频 数据 流 : 

时 态 调整 :通过 减少 一 个 时 间 间 隔 传输 的 视频 帧 的 数目 ， 系 统 可 以 减少 时 间 域 中 的 视频 数据 
流 的 分 辩 素 。 时 态 调整 最 适合 于 那些 每 个 视频 帧 是 自 包含 的 并 且 对 单个 视频 帧 可 独立 访问 的 视频 
数据 流 。 它 很 难处 理 Delta 压 缩 技术 生成 的 数据 流 ， 因 为 不 是 所 有 的 帧 都 可 以 轻易 丢弃 。 因 此 ， 时 
态 调整 技术 更 适合 于 Motion JPEG 数 据 流 ， 而 不 太 适合 MPEG 数 据 流 。 

空间 调整 ， 在 视频 数据 流 中 减少 每 个 图 像 的 像素 数 。 对 空间 调整 技术 而 言 ， 系 统 适合 采用 层 
次 型 管理 方法 ， 这 样 可 以 立即 获得 各 种 分 辩 率 的 压缩 视频 。 因 此 ， 在 最 终 传输 前 不 需要 对 每 个 图 
像 再 次 编码 ， 系 统 可 以 使 用 不 同 的 分 辨 率 来 传输 视频 数据 流 。JPEBG 和 MPEG-2 支 持 不 同 的 空间 图 
像 分 辨 率 ， 因 此 它们 适合 使 用 这 种 调整 方法 。 

频 度 调整 ， 改 变 应 用 于 每 个 图 像 的 压缩 算法 。 这 样 会 导致 一 部 分 图 像 质量 的 损失 ， 不 过 在 通 
常 的 图 像 中 ， 可 以 在 察觉 到 图 像 质量 降低 前 ， 大 大 提高 数据 的 压缩 率 。 

振幅 调整: 减少 每 个 像素 的 颜色 深度 。 这 种 调整 方法 实际 上 被 H.261 使 用 ， 所 以 即使 图 像 内 容 
发 生变 化 ， 也 可 以 保持 恒定 的 春 吐 率 。 

颜色 空间 调整 ， 减少 颜色 空间 的 数目 。 实 现 颜色 空间 调整 的 一 种 方法 是 将 彩色 图 像 转变 为 黑白 
图 像 

在 需要 时 ， 还 可 以 将 这 些 调整 方法 组 合 起 来 。 

执行 调整 的 系统 由 一 个 位 于 目的 端的 监视 进程 和 一 个 位 源 es 
于 源 端 的 调整 进程 组 成 。 监 视 进程 监视 数据 流 中 消息 的 到 达 
时 间 。 如 果 发 生 延 迟 ， 就 说 明 系统 中 存在 瓶颈 。 监 视 进程 会 “中 守节 刘 二 
向 源 端 发 送 一 个 白 下 调整 消 息 ， 源 端 就 减少 数据 流 的 带宽 。 。 从 带宽 一 
过 一 段 时 间 以 后 ， 源 端 将 数据 流向 上 调整 回 原来 的 水 平 。 如 图 17.9 过 让 
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果 瓶 颈 仍然 存在 ， 监 视 进程 会 再 次 检测 到 延迟 ， 源 端 会 再 次 调整 数据 流 [Delgrossi et al. 1993]。 调 
整 系统 的 问题 包括 : 如 何如 免 不 必 要 的 向 上 调整 操作 和 如 何 避 免 系 统 进 入 抖动 状态 。 


17.5.2 过 滤 


流 调 整 在 源 端 改 变 了 数据 流 ， 但 它 并 不 适合 于 涉及 多 个 接收 者 的 应 用 程序 ， 当 频 颈 出 现在 源 
端 到 其 中 一 个 目的 端的 路 径 上 时 ， 目 的 端 向 源 端 发 送 一 个 向 下 调整 消息 ， 这 会 使 所 有 的 目的 端 接 
收 到 的 图 像 质量 下 降 ， 尽 管 其 中 可 能 有 些 接收 者 在 处 理 原 数据 流 时 没有 任何 问题 。 

过 滤 技 术 可 以 为 每 个 目的 端 提 供 尽 可 能 好 的 QoS， 它 是 通过 在 从 源 端 到 目的 端的 路 径 的 相关 节 
点 上 采用 流 调整 技术 (参见 图 17-9) 来 实现 的 。RSVP[Zhang et al. 1993] 是 支持 过 滤 的 QoS 协 商 协议 
的 一 个 例子 。 过 滤 将 一 个 数据 流 分 解 为 一 个 层次 性 的 子 数据 流 集合 ， 其 中 每 一 个 子 数据 流 增加 更 高 
级 别 的 质量 。 路 径 节点 的 容量 决定 了 目的 端 接收 到 的 子 数据 流 数 。 其 他 的 子 数据 流 在 靠近 源 的 地 方 
(甚至 可 能 就 在 源 端 ) 就 被 过 滤 掉 ， 这 样 可 以 避免 传输 后 来 被 丢弃 的 数据 。 如 果 一 个 中 间 节 点 存在 
一 条 可 以 传输 整个 子 数据 流 的 向 下 传输 的 路 径 ， 那 么 子 数据 流 在 这 个 节点 上 就 不 会 被 过 滤 。 


17.6 实例 研究 ，Tiger 视 频 文件 服务 器 


提供 多 个 并 发 实时 视频 数据 流 的 视频 存储 系统 被 看 作 支 持 面向 消费 者 的 多 媒体 应 用 程序 的 一 
个 重要 的 系统 组 件 。 人 们 已 经 开发 了 多 个 这 种 类 型 的 原型 系统 ， 并 且 其 中 的 一 些 已 经 成 为 实际 产 
品 《〈 见 [Cheng 1998])。 其 中 一 个 最 先进 的 系统 是 Tiger 视 频 文 件 服务 器 ， 它 是 由 Microsoft 研 究 实验 
室 开 发 的 [Bolosky et al. 1996]。 

设计 目标 这 个 系统 的 主要 设计 目标 如 下 : 

主人 人 的 全 本 和 模 ， 这 “应 用 程序 是 向 付费 的 用 户 提供 电影 的 服务 。 系 统 从 大 容量 
的 数字 电影 库 中 选择 电影 。 客 户 应 在 发 送 点 播 请 求 的 数秒 钟 内 就 能 获得 影 图 像 的 第 一 个 帧 ， 并 
且 他 还 应 该 能 随心 所 欲 地 执行 暂停 、 回 退 和 快 进 操作 。 尽 管 库 中 电影 的 数量 很 多 ， 但 是 可 能 有 一 
些 电影 是 很 受 欢 迎 的 ， 它 们 可 能 同时 被 多 个 客户 不 同步 地 访问 ， 这 就 可 能 导致 同时 播放 它们 ,但 
是 播放 的 时 间 进 度 不 同 。 

“服务 质量 : 视频 数据 流 的 传输 速率 应 保持 稳定 ， 其 中 客户 端 可 用 的 缓冲 区 大 小 决定 了 系统 能 

处 理 的 最 大 的 抖动 ， 并 且 视 频数 据 流 还 应 保持 低 丢 失 率 。 

“可 伸缩 性 和 分 布 性 ; 目的 是 设计 一 种 具有 可 扩展 的 体系 结构 的 系统 ， 它 (通过 增加 计算 机 ) 

可 以 同时 支持 10000 个 客户 。 

“硬件 成 本 低 : 这 个 系统 是 由 低 价 的 硬件 构建 的 (具有 标准 磁盘 驱动 的 “大 众 用 的 ”PC 机 )。 

“容错 性 : 在 单个 服务 器 计算 机 或 者 是 磁盘 驱动 器 发 生 故 障 时 ， 系 统 可 以 继续 运行 并 且 执 行 性 

能 不 会 明显 下 降 。 

总 而 言 之 ， 这 些 需 求 要 求 有 一 个 存储 和 检索 视频 数据 的 基本 方法 和 一 个 平衡 多 个 相似 服务 器 
之 间 负 载 的 有 效 调 度 算法 。 主 要 任务 是 将 从 磁盘 上 获取 的 高 带宽 的 视频 数据 流传 输 到 网 络 上 ， 并 
且 这 应 该 是 多 个 服务 器 共同 承担 的 任务 。 

体系 结构 企图 17-10 中 显示 了 Tiger 系 统 的 硬件 体系 结构 。 所 有 的 组 件 都 是 可 以 从 市 面 上 买 到 
的 产品 。 图 中 所 示 的 cub 计 算 机 是 包含 同样 数目 的 标准 硬盘 驱动 器 (通常 是 2~4 个 ) 的 PC 机 。 它 们 
还 安装 了 以 太 网 和 ATM 网 网 卡 。Controller 是 另 一 台 PC 机 。 它 不 负责 处 理 多 媒体 数据 ， 其 职责 只 是 
处 理 客户 请 求 和 管理 cub 计 算 机 的 工作 调度 。 

存储 组 织 。 主要 的 设计 问题 是 : 如 何在 cub 计 算 机 的 磁盘 上 分 布 视频 数据 ， 以 实现 计算 机 共享 
负载 的 目的 。 ada 电影 的 多 个 数据 流 以 及 提供 多 个 电影 的 多 个 数据 流 ， 因 
此 使 用 单个 磁盘 来 存储 每 个 能 达到 以 上 目标 的 。 相 反 ， 电 影 被 存储 在 跨越 所 有 磁盘 的 条 
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带 上 。 这 可 以 通过 复制 数据 的 镜像 方法 和 容错 机 制 来 实现 ， 下 面 将 介绍 这 一 内 容 : 







低 带 宽 网 络 


客户 发 出 的 开始 /停止 指令 


视频 数据 被 分 发 给 客户 
图 17-10 Tiger 视 频 文件 系统 的 硬件 配置 


条 带 存储 : 电影 数据 被 划分 为 块 (每 一 块 数据 的 播放 时 间 相 等 ， 通 常 是 1 秒 左右 ， 天 概 占据 
0.5MB)， 并 且 组 成 一 部 电影 的 数据 块 集合 (通常 时 间 为 两 小 时 的 电影 大 约 包含 7000 个 数据 块 ) 被 
存储 在 属于 不 同 cub 计 算 机 的 磁盘 上 ， 图 17-10 显 示 了 其 存储 的 顺序 。 一 部 电影 的 起 始 数据 块 可 以 存 
储 在 任意 一 台 计 算 机 上 。 如 果 当 前 数据 块 存储 在 编号 最 大 的 磁盘 上 ， 则 下 一 数据 块 会 被 存储 在 第 0 
号 磁盘 上 ， 然 后 按 顺 序 存储 。 

镜像 : 镜像 方案 将 每 个 数据 块 划分 为 几 个 部 分 ， 称 为 二 级 备份 。 当 一 个 cub 计 算 机 失效 后 ， 这 
样 做 能 保证 本 来 由 此 cub 计 算 机 提供 块 数据 的 任务 被 分 配 到 其 他 的 cub 计 算 机 上 。 每 个 数据 块 上 二 
级 备份 的 数目 取决 于 散 列 因子 4， 它 的 值 通常 在 4~8 之 间 。 存 储 在 磁盘 i 上 的 数据 块 的 二 级 备份 被 存 
储 在 磁盘 i + 1 到 i + 4 上。 注意 ， 只 要 系统 中 的 cub 计 算 机 的 数目 多 于 d 人 个， 那么 这 些 磁盘 中 没有 一 个 

?42| 和 磁盘 ;属于 同一 个 cub 计 算 机 。 如 果 散 列 因子 的 值 为 8， 那 么 不 发 生 故 障 的 任务 可 以 使 用 cub 计 算 机 
743| ”接近 7/8 的 处 理 能 力 和 磁盘 带宽 。 其 余 1/8 的 资源 应 该 足够 处 理 出 现 故 障 的 任务 。 

分 布 式 调度 Tiger 系统 设计 的 核心 是 调度 cub 计 算 机 的 工作 负载 。 系 统 的 调度 表 实 际 上 是 一 个 
档 的 列表 ， 每 个 槽 表示 播放 一 个 数据 块 的 电影 这 一 工作 。 也 就 是 说 ， 它 需要 从 相关 的 磁盘 上 读 取 
数据 块 ， 并 将 其 传输 到 ATM 网 络 上 。 每 一 个 可 能 的 接收 电影 的 客户 (被 称 为 收看 者 ) 只 能 收 到 一 
个 模 的 信息 ， 并 且 每 个 被 占据 的 槽 表示 收看 者 正在 接收 实时 视频 数据 流 。 在 调度 表 中 ， 收 看 者 的 
状态 通过 以 下 信息 表示 : 

“客户 计算 机 的 地 址 。 

“ 被 播放 文件 的 标识 。 

“文件 中 收看 者 的 位 置 (数据 流 中 下 一 个 要 传送 的 数据 块 ) 。 

* 收 看 者 播放 的 序号 (从 中 可 以 计算 出 下 一 个 数据 块 的 传送 时 间 )。 

。 其 他 一 些 记录 信息 。 

图 17-11 给 出 了 Tiger 的 调度 。 数 据 块 播放 时 间 7 是 指 客户 端 上 收看 者 播放 一 个 数据 块 的 时 间 ， 
其 值 通常 是 1s， 并 且 假 设 对 所 有 存储 的 电影 来 说 ， 该 值 都 是 相等 的 。 因 此 ，Tiger 系 统 必 须 在 每 个 
数据 流 的 相 邻 数据 块 传输 中 维持 一 个 时 间 间 隔 7， 由 客户 计算 机 上 的 可 用 缓冲 大 小 来 决定 系统 可 以 
允许 的 抖动 。 

每 一 个 cub 计 算 机 维持 一 个 指针 ， 该 指针 指向 每 个 磁盘 的 调度 表 。 在 播放 数据 块 时 ，cub 计 算 
机 必须 处 理 属 于 它 控制 的 磁盘 上 的 数据 块 号 所 对 应 的 槽 ， 并 且 在 当前 块 的 播放 时 间 内 ， 完 成 数据 
的 传送 。cub 计 算 机 进行 实时 处 理 调度 的 步骤 如 下 : 
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1) 将 下 一 个 数据 块 从 磁盘 上 读 出 ， 放 在 此 cub 计 算 机 的 缓冲 区 内 。 

2) 将 此 数据 块 打包 并 记 下 客户 端 计算 机 的 地 址 ， 并 将 其 传输 到 cub 计 算 机 的 ATM 网 络 控制 器 上 。 

3) 更 新 调度 表 中 收看 者 的 状态 ， 这 样 可 以 给 出 下 一 个 数据 块 和 播放 序号 。 然 后 将 更 新 的 槽 伟 
送 给 下 一 个 cub 计 算 机 处 理 。 

假设 这 些 活 动 的 最 大 时 间 开 销 为 ! ( 称 为 块 服务 时 间 )。 如 图 17-11 所 示 ，i 实 际 上 小 于 磁盘 块 的 
播放 时 间 。! 值 取决 于 磁盘 带宽 和 网 络 带 宽 两 者 之 间 的 较 小 值 ( 在 cub 计 算 机 中 其 他 资源 足够 完成 对 
其 磁盘 访问 的 调度 工作 ) 。 当 一 个 cub 计 算 机 处 理 完 当前 磁盘 块 的 播放 这 一 调度 任务 ， 它 就 可 以 执 
行 其 他 未 调度 的 工作 ， 直 到 到 达 下 一 个 播放 时 间 为 止 。 实 际 上 ， 磁 盘 并 没有 为 数据 块 提供 固定 的 
延迟 时 间 ， 为 了 适应 这 种 不 均匀 的 读 盘 时 间 ， 系 统 必 须 至 少 在 数据 块 被 打包 和 发 送 的 前 一 个 磁盘 
服务 时 间 就 启动 读 盘 过 程 。 

一 个 磁盘 可 以 为 Tt 个 数据 流 服务 ， 并 且 TV/t 的 结果 通常 大 于 4。 这 一 比率 以 及 整个 系统 中 的 磁盘 
数目 决定 了 Tiger 系 统 可 以 服务 的 收看 者 的 数目 。 例 如 ， 一 个 拥有 5 个 cub 计 算 机 并 且 每 个 计算 机 上 
有 3 个 磁盘 的 Tiger 系 统 大 约 同时 可 以 传送 70 个 视频 数据 流 。 

容错 性 ”因为 在 Tiger 系 统 中 ， 电 影 文 件 的 条 带 覆 盖 在 所 有 的 磁盘 上 ， 所 以 任意 组 件 (磁盘 驱 
动 器 或 cub 计 算 机 ) 的 故障 都 可 能 导致 系统 不 能 为 所 有 的 客户 提供 服务 。Tiger 系 统 为 了 应 付 这 种 情 
况 所 采取 的 方法 是 : 当 因 为 一 个 磁盘 驱动 器 或 一 台 cub 计 算 机 发 生 故障 而 引起 一 个 主 数据 块 不 可 用 
时 ， 系 统 从 它 镜 像 的 二 级 备份 上 读 取 数据 。 前 面 曾经 提 过 ， 二 级 备份 数据 块 比 主 数据 块 小 ， 比 例 
为 散 列 因子 4， 一 个 数据 块 的 二 级 备份 被 分 布 在 数 个 不 同 cub 的 磁盘 上 。 

当 一 个 cub 计 算 机 或 者 磁盘 失效 后 ， 一 个 临近 的 cub 计 算 机 会 修改 调度 表 并 在 其 中 加 入 数 个 镜 
像 收看 者 状态 ， 它 表示 存储 这 些 二 级 备份 的 d 个 磁盘 的 工作 负载 。 镜 像 收 看 者 状态 与 普通 的 收看 者 
状态 类 似 ,但 是 它 具 有 不 同 的 磁盘 号 和 时 序 需 求 。 因 为 这 一 额外 的 工作 负载 被 4 个 磁盘 和 d 个 计算 
机 共享 ， 所 以 如 果 在 调度 表 中 发 现 有 空余 能 力 ， 这 项 任务 最 好 就 利用 这 一 空余 ， 而 不 要 打扰 其 他 
槽 的 任务 。 一 个 cub 计 算 机 的 故障 与 它 所 有 的 磁盘 的 故障 相似 ， 其 处 理 方式 也 相似 。 

网 络 支 持 ”cub 计 算 机 只 是 将 每 部 电影 的 数据 块 以 及 相关 客户 的 地 址 信息 传输 到 ATM 网 络 上 。 
能 否 顺序 和 实时 地 向 客户 计算 机 传输 数据 块 ， 就 依赖 于 ATM 网 络 协议 (参见 3.5.3 节 ) 的 QoS 保证 。 
客户 需要 大 到 能 存储 两 个 数据 块 的 缓冲 区 ， 其 中 一 个 数据 块 是 客户 正在 播放 的 ， 而 另 一 个 数据 块 是 
正在 从 网 络 上 接收 的 。 当 客户 处 理 主 数据 块 时 ， 它 只 需要 检查 每 个 到 达 数 据 块 的 序号 ， 并 将 它们 传 
送 到 显示 处 理 程序 上 。 当 客户 处 理 数据 块 的 二 级 备份 时 ， 负 责 存储 散 列 数据 块 的 d 个 cub 计 算 机 负责 
将 二 级 备份 顺序 地 传输 到 网 络 上 ， 客 户 负责 收集 这 些 二 级 备份 并 在 缓冲 区 中 将 其 组 装 起 来 。 

其 他 功能 我 们 已 经 介绍 过 了 Tiger 服 务 器 的 有 严格 时 间 要 求 的 活动 。 在 它 的 设计 中 ， 所 提供 的 
服务 还 包括 快 进 和 回 退 。 这 些 功能 要 求 系统 能 将 电影 数据 块 中 的 某 一 部 分 数据 传输 给 客户 ， 这 样 就 
由 视频 播放 器 提供 一 个 对 用 户 要 求 的 可 视 反 馈 。cub 计 算 机 在 非 调度 的 时 间 内 努力 做 到 这 一 点 。 

其 他 一 些 功 能 还 包括 管理 和 分 布 调度 表 以 及 管理 电影 数据 库 ， 其 中 包括 在 磁盘 上 删除 旧 的 电 
影 、 写 人 新 的 电影 以 及 维持 电影 目录 。 

在 Tiger 系 统 的 最 初 实现 中 ，controller 计 算 机 处 理 调度 表 的 管理 和 发 布 。 因 为 这 会 导致 单 点 故 
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障 以 及 潜在 的 性 能 瓶颈 ， 后 来 ， 调 度 表 管理 被 设计 为 一 个 分 布 式 算法 [Bolosky et al. 1997]。 根 据 
controller 计 算 机 发 出 的 命令 ，cub 计 算 机 负责 在 非 调度 的 时 间 内 执行 管理 电影 数据 库 的 工作 。 

性 能 和 可 伸缩 性 ”这 一 系统 的 初始 原型 在 1994 年 被 开发 出 来 ， 使 用 了 5 个 133MHz 的 奔腾 PC， 
每 个 PC 上 装 有 48MB 的 RAM 和 2GB 的 SCSI 磁 盘 驱 动 器 以 及 一 个 ATM 网 络 控 制 器 ， 运 行 的 操作 系统 
是 Windows NT。 通 过 使 用 模拟 的 客户 负载 来 度量 此 系统 的 配置 。 在 无 错 运行 并 且 服 务 的 客户 数目 
达到 68 时 ，Tiger 系 统 的 数据 传输 性 能 相当 不 错 一 一 没有 数据 块 被 丢失 或 被 延迟 。 当 有 一 个 cub 计 算 
机 失效 时 (因此 有 3 个 磁盘 失效 )， 服 务 的 数据 丢失 率 仪 为 0.02%， 这 在 设计 所 容忍 的 范围 内 。 

另外 一 个 度量 是 检查 启动 延迟 ， 该 延迟 表示 系统 接收 到 客户 请 求 到 传输 出 第 一 个 包 之 间 的 时 
间 间 隔 。 它 与 调度 表 中 空闲 槽 的 位 置 和 数目 密切 相关 。 实 现 这 项 工作 的 算法 开始 会 将 客户 请 求 放 
置 在 调度 表 中 的 一 个 槽 中 ， 这 个 槽 是 和 所 需 电 影 的 第 一 个 数据 块 所 在 的 磁盘 最 近 的 一 个 空闲 槽 。 
启动 延迟 度量 值 在 2~ 12s 范 围 内 。 最 近 已 经 研究 出 一 个 新 的 槽 分 配 算法 [Douceur and Bolosky 
1999]， 它 能 降低 调度 表 中 被 占据 的 槽 的 聚集 性 ， 使 空闲 的 槽 更 均匀 地 分 布 在 调度 表 中 ， 这 样 可 以 
减少 平均 启动 延迟 时 间 。 

尽管 最 初试 验 系统 的 规模 很 小 ， 但 后 来 在 有 14 个 cub 计 算 机 、56 个 磁盘 以 及 使 用 了 Bolosky 等 
[1997] 的 分 布 式 调度 方案 的 系统 上 又 进行 了 新 的 度量 。 当 所 有 的 cub 计 算 机 都 正常 工作 时 ， 系 统 可 
以 同时 发 送 602 个 2Mbps 的 数据 流 ， 丢 失 率 小 于 1/180000。 当 有 一 个 cub 计 算 机 失效 时 ， 数 据 丢 失 率 
小 于 1/40000。 这 些 结果 可 以 证 明 在 Tiger 系 统 使 用 的 cub 计 算 机 数 达 到 1000 时 ， 它 可 以 同时 支持 
30000 一 40000 个 收看 者 。 





17.7 小 结 


多 媒体 应 用 程序 需要 新 的 系统 机 制 以 保证 它们 能 处 理 大 量 的 实时 数据 。 这 些 机 制 最 重要 的 一 
点 是 服务 质量 管理 。 它 们 必须 合理 地 分 配 带宽 和 其 他 资源 以 保证 系统 可 以 满足 应 用 程序 的 资源 需 
求 ， 同 时 它们 必须 对 这 些 资 源 的 使 用 进行 调度 ， 这 样 ， 多 媒体 程序 可 以 获得 比较 好 的 执行 效果 。 

服务 质量 管理 负责 处 理应 用 程序 提出 的 QoS 请 求 ,这 一 请 求 指定 了 多 媒体 数据 流 可 接受 的 带宽 、 
延迟 和 丢失 率 ， 服 务 质量 管理 同时 也 执行 许可 控制 ， 决 定 是 否 有 足够 的 非 预 留 资源 来 满足 新 的 请 
求 并 在 必要 时 与 应 用 程序 进行 协商 。 一 且 系 统 接受 应 用 程序 的 QoS 请 求 ， 其 资源 就 被 预 留 ， 同 时 系 
统 给 应 用 程序 发 送 一 个 保证 信息 。 

系统 必须 调度 分 配给 应 用 程序 的 处 理 器 的 处 理 能 力 和 网 络 带 宽 以 满足 应 用 程序 的 需要 。 系 统 需 
要 像 最 早 时 间 限 制 优先 和 速率 单调 这 样 的 实时 处 理 器 调度 算法 以 保证 及 时 地 处 理 每 个 数据 元 素 。 

流量 调整 算法 是 用 来 缓冲 实时 数据 的 ， 它 的 目的 是 消除 数据 流 中 数据 元 素 之 间 的 间隔 时 间 的 
不 均匀 ， 而 这 种 不 均匀 是 不 可 避免 的 。 通 过 减少 源 端的 输出 带宽 调整) 或 减少 中 间 节 点 的 带宽 
(过 滤 )， 数 据 流 可 以 被 调整 以 适应 较 少 的 资源 。 

Tiger 视 频 文件 服务 器 是 一 个 很 好 的 可 扩展 系统 ， 它 能 为 大 范围 的 用 户 提供 具有 较 好 服务 质量 
的 数据 流 。 它 的 资源 调度 方法 比较 特殊 ， 它 为 这 种 类 型 的 系统 提供 一 个 很 好 的 例子 。 


练习 


17.1 简要 描述 一 个 支持 分 布 式 音乐 演奏 的 排练 系统 。 请 对 这 一 系统 的 QoS 需求 以 及 硬件 和 软件 配 
置 提出 建议 。 (第 724 页 ， 第 730 页 ) 
17.2 当前 因特网 没有 提供 资源 预 留 和 服务 质量 管理 设施 。 现 有 的 基于 因特网 的 音频 和 视频 数据 流 
应 用 程序 如 何 获得 可 接受 的 服务 质量 ? 如 果 采 用 在 多 媒体 应 用 程序 中 所 采用 的 解决 方法 ， 有 
哪些 局 限 性 ? (第 724 页 ， 第 734 页 ， 第 740 页 ) 
17.3 请 说 明 分 布 式 多 媒体 应 用 程序 可 能 需要 的 三 种 形式 的 同步 (分布 式 状态 同步 、 媒 体 同 步 和 外 
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17.4 


17.5 


17.6 


17.7 


17.8 





部 同步 ) 之 间 的 区 别 。 对 于 一 个 视频 会 议 应 用 程序 而 言 ， 请 对 其 实现 同步 的 机 制 提出 自己 的 
建议 。 (第 725 页 ) 


假设 有 一 个 由 ATM 网 络 连接 多 个 桌面 计算 机 以 支持 多 个 并 发 的 多 媒体 应 用 程序 的 系统 ， 简 要 
描述 其 QoS 管理 器 的 设计 。 为 你 描述 的 QoS 管理 器 定义 API 接 口 ， 同 时 给 出 其 操作 以 及 相应 的 
参数 和 可 能 返回 的 结果 。 (第 730~732 页 ) 
为 了 给 出 处 理 多 媒体 数据 的 软件 组 件 的 资源 需求 ， 我 们 需要 估计 其 处 理 负 载 。 如 何在 合理 的 
开销 下 获得 这 种 信息 ? (第 730 一 732 页 ) 
当 有 大 量 的 客户 同时 访问 同一 部 电影 时 ，Tiger 系 统 如 何 处 理 ? (第 742 一 746 页 ) 
Tiger 系 统 的 调度 表 包 含 了 大 量 的 结构 化 数据 ， 并 且 被 频繁 地 更 新 ， 但 是 每 一 个 cub 计 算 机 需要 


获得 它 当前 处 理 的 部 分 在 调度 表 中 的 最 新 信息 。 请 设计 一 个 为 cub 计 算 机 分 发 调度 表 的 机 制 。 
(第 742 一 746 页 ) 
当 Tiger 系 统 要 对 一 个 失效 的 磁盘 或 cub 计 算 机 进行 操作 时 ， 系 统 使 用 其 数据 块 的 二 级 备份 来 
代替 主 数据 块 。 二 级 备份 数据 块 比 主 数据 块 小 * 倍 (〈" 是 散 列 因 子 ) 。 数 据 块 的 大 小 改变 后 ， 
系统 如 何 适 应 ? (第 745 页 ) 
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第 18 章 分 布 式 共享 内 存 


本 章 将 介绍 分 布 式 共享 内 存 (DSM)， 它 是 在 不 共享 物理 内 存 的 不 同 计算 机 进程 之 间 共 享 数 据 
的 一 个 抽象 。 开 发 DSM 的 动机 是 允许 系统 使 用 一 个 共享 内 存 的 编程 模型 ， 这 一 模型 比 基 于 消息 的 
模型 拥有 更 多 的 优点 。 例 如 ， 使 用 DSM， 程 序 员 不 需要 对 数据 项 进行 编码 。 

实现 DSM 的 一 个 核心 问题 是 : 在 系统 包含 大 量 的 计算 机 时 ， 它 如 何 获 得 良好 的 性 能 。 对 DSM 
的 访问 可 能 会 涉及 网 络 的 通信 。 竞 争 同一 数据 项 或 相 邻 数据 项 的 进程 可 能 会 产生 很 大 的 通信 量 。 
通信 量 和 DSM 的 一 致 性 模型 紧密 相关 ， 当 一 个 进程 读 取 DSM 中 的 数据 时 ， 一 致 性 模型 决定 在 多 个 
写 人 数据 中 选择 返回 哪 一 个 值 。 

本 章 将 讨论 DSM 中 的 设计 问题 〈 像 一 致 性 模型 ) 以 及 实现 问题 (例如 ， 在 写 一 个 数据 拷贝 时 ， 
同一 数据 的 其 他 拷贝 哪些 将 失效 ， 哪 些 将 被 更 新 ) 。 接 着 本 章 还 将 详细 讨论 失效 协议 。 最 后 描述 了 
释放 一 致 性 一 一 一 个 相对 弱 一 点 的 一 致 性 模型 ， 在 许多 情况 下 ， 达 到 这 种 一 致 性 就 足够 了 ， 同 时 它 
也 较 容易 实现 。 


18.1 简介 


分 布 式 共享 内 存 (DSM) 是 在 不 共享 物理 内 存 的 计算 机 之 间 实 现 共享 数据 的 一 个 抽象 。 进 程 
可 以 使 用 像 访 问 自己 地 址 空间 内 的 普通 内 存 一 样 的 读 写 操作 来 访问 DSM。 然 而 ， 有 一 个 在 底层 的 
运行 时 系统 来 保证 其 透明 性 ， 这 一 透明 性 使 得 进程 可 以 观察 到 其 他 计算 机 上 进程 所 进行 的 数据 更 
新 。 看 上 去 ， 进 程 都 访问 单个 共享 内 存 ， 但 实际 上 物理 内 存 是 分 布 式 的 ( 见 图 18-1)。 
分 布 式 共享 内 存 





DSM 表 现 得 和 进程 地 
| 、、 址 空间 内 的 内 存 一 样 
| 


Ns 


Ei Ry ke 


物理 内 存 物理 内 存 物理 内 存 


访问 DSM 的 进程 “~ 





图 18-1 分 布 式 共享 内 存 抽 象 


DSM 的 最 关键 一 点 是 ， 它 使 得 程序 员 不 必 关 心 数据 通信 ， 而 使 用 传统 方式 编程 时 ， 就 不 可 如 
免 地 要 涉及 到 消息 传递 。 并 行 应 用 程序 、 分 布 式 应 用 程序 以 及 应 用 程序 组 都 可 以 使 用 DSM 这 一 工 
具 ， 它 可 以 使 这 些 程序 直接 访问 共享 数据 。 通 常 DSM 不 太 适 合 于 客户 -服务 器 系统 ， 因 为 客户 通常 
将 服务 器 拥有 的 数据 看 作 抽 象 数据 并 且 通 过 发 送 请 求 来 访问 这 些 数 据 (基于 模块 性 和 安全 性 的 原 
因 )。 然 而 ， 服 务 器 可 以 提供 客户 共享 的 DSM。 例 如 ， 系 统 可 以 共享 内 存 映射 的 文件 ， 并 且 因 此 系 
统 可 以 维持 一 定 程度 的 一 致 性 ， 这 是 DSM 的 一 种 形式 。( 在 MULTICS 操 作 系 统 [Organick 1972] 中 
就 引入 了 映射 文件 。) 

在 分 布 式 系 统 中 ， 消 息 传递 是 不 可 加 免 的 : 如 果 没 有 物理 共享 内 存 ， 那 么 DSM 在 运行 时 将 不 
得 不 依靠 在 计算 机 之 间 传 递 的 消息 来 发 送 数据 更 新 。DSM 系 统管 理 复制 的 数据 : 每 个 计算 机 都 拥 
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有 最 近 访 问 的 数据 项 的 本 地 拷贝 ， 原 始 数据 项 存储 在 DSM 中 ， 这 样 可 以 加 快 访 问 速 度 。DSM 的 实 
现 问 题 和 第 15 章 讨论 的 问题 有 关 ， 同 时 它 也 和 第 8 章 讨论 的 缓存 共享 文件 问题 相关 。 

Apolio 域 文件 系统 [Leach et al. 1983] 是 一 个 DSM 的 实现 例子 ， 不 同 工 作 站 上 的 进程 通过 将 共 
享 文件 同时 映射 到 各 自 的 地 址 空间 来 同时 共享 这 些 文件 。 这 个 例子 说 明了 分 布 式 共 享 内 存 可 以 是 
持久 性 的 。 也 就 是 说 ， 它 的 生存 期 比 访问 它 的 任意 进程 或 进程 组 的 生存 期 长 ， 并 且 不 同 的 进程 组 
可 以 长 期 地 共享 它 。 

随 着 共享 内 存 的 多 处 理 器 结构 ( 见 6.3 节 ) 的 发 展 ，DSM 的 重要 性 也 开始 显现 。 当 前 进行 的 许 
多 研究 是 关于 适用 于 这 些 多 处 理 器 结构 上 的 并 行 计算 的 算法 。 在 硬件 体系 结构 层 ， 研 究 进展 包括 
缓存 策略 和 处 理 器 -内 存 快速 互 连 方法 ， 它 的 目标 是 在 获得 较 小 的 内 存 访问 延 时 和 较 大 的 吞吐 量 的 
同时 ， 增 加 处 理 器 的 数目 [Dubois et al. 19881。 在 进程 和 内 存 模块 通过 普通 总 线 连接 的 系统 中 ， 因 
为 存在 总 线 竞 争 ， 故 处 理 器 数目 限制 在 10 个 左右 ， 否 则 系统 的 性 能 将 会 明显 下 降 。 共 享 内 存 的 处 
理 器 通常 是 四 个 一 组 ， 它 们 通过 一 个 电路 板 上 的 总 线 来 共享 内 存 。 在 非 一 致 内 存 访问 (NUMA) 
体系 结构 的 主板 上 ， 系 统 可 以 支持 多 达 64 个 处 理 器 。 它 是 一 种 层次 型 的 体系 结构 ， 其 中 系统 使 用 
高 性 能 的 开关 或 高 级 别 的 总 线 将 多 个 拥有 4 个 处 理 器 的 主板 连接 起 来 。 在 NUMA 体 系 结构 中 ， 处 理 
器 看 到 一 个 包含 所 有 主板 的 所 有 内 存 的 地 址 空间 。 但 是 处 理 器 访问 本 主板 上 内 存 的 延迟 比 访问 其 
他 主板 上 内 存 的 延迟 小 一 一 这 就 是 这 一 体系 结构 名 称 的 来 源 。 

在 分 布 式 内 存 多 处 理 器 结构 和 非 定制 计算 组 件 集群 ( 见 6.3 节 ) 中 ， 处 理 器 不 共享 内 存 ， 但 是 
它们 通过 高 速 网 络 连接 起 来 。 和 通用 的 分 布 式 系统 一 样 ， 这 些 系统 中 处 理 器 的 数目 可 能 很 大 ， 比 
共享 内 存 的 多 处 理 器 结构 的 64 个 处 理 器 的 上 限 大 很 多 。DSM 和 多 处 理 器 结构 的 研究 所 面临 的 一 个 
核心 问题 是 :共享 内 存 算法 和 其 相关 软件 能 否 直接 应 用 于 更 大 规模 的 分 布 式 共享 内 存 体系 结构 。 


18.1.1 消息 传递 机 制 和 DSM 


作为 一 种 通信 机 制 ，DSM 和 消息 传递 相似 ， 但 和 基于 请 求 -应 答 的 通信 方式 不 同 ， 这 是 因为 
它 的 应 用 程序 是 并 行 处 理 的 ， 而 且 使 用 的 是 异步 通信 。 我 们 将 从 以 下 方面 对 应 用 于 编程 的 DSM 和 
消息 传递 方法 进行 比较 : 

编程 模型 ， 使 用 消息 传递 模型 时 ， 当 一 个 进程 向 另 一 个 进程 发 送 数据 时 ， 发 送 进程 必须 对 变 
车 进 行 编码 ， 而 接收 进程 必须 对 变量 进行 解码 。 相 反 ， 使 用 共享 内 存 的 进程 可 以 直接 共享 变量 ， 
这 样 它 就 不 需要 进行 编码 和 解码 一 一 甚至 对 指向 共享 数据 的 指针 也 是 如 此 ， 因 此 不 需要 单独 的 通信 
操作 。 大 多 数 实现 允许 系统 可 以 以 访问 非 共 享 变量 的 方式 对 存储 在 DSM 中 的 变量 进行 命名 和 访问 。 
另 一 方面 ， 使 用 消息 传递 的 好 处 是 ， 通过 进程 的 专用 地 址 空间 ， 使 通信 进程 的 数据 受到 保护 。 而 
这 些 进程 在 使 用 DSM 的 共享 数据 时 ， 可 能 会 因为 一 个 进程 不 适当 地 改变 了 共享 数据 而 导致 其 他 进 
程 其 溃 。 而 且 ， 在 异 质 的 计算 机 系统 之 间 进 行 消息 传递 时 ， 通 信 系 统 可 以 根据 数据 在 不 同系 统 之 
间 的 表示 方式 采用 不 同 的 编码 方式 ， 然 而 共享 内 存 机 制 无 法 实现 这 一 点 ， 例 如 ， 不 同 整数 表示 方 
式 的 计算 机 之 间 如 何 共享 内 存 呢 ? 

消息 模型 使 用 消息 传递 原 语 来 实现 进程 之 间 的 同步 ， 使 用 的 是 第 13 章 介绍 的 锁 服 务 器 这 样 的 
技术 。 在 DSM 中 ， 进 程 的 同步 是 通过 通常 共享 内 存 程序 使 用 的 同步 机 制 实现 的 ， 如 锁 和 信号 量 
(在 分 布 式 内 存 环境 中 ， 它 们 可 能 需要 不 同 的 实现 方法 )。 第 6 章 在 介绍 线程 编程 时 简单 讨论 了 这 些 
同步 对 象 。 

最 后 ， 因 为 DSM 可 以 是 持久 的 ， 通 过 DSM 通 信 的 进程 的 生命 期 可 能 并 不 重 又 。 一 个 进程 可 以 
在 合适 的 内 存 地 点 上 保留 它 的 数据 ， 而 另 一 个 进程 可 以 在 它 运行 时 读 取 该 数据 。 相 反 ， 通 过 消息 
传递 机 制 通信 的 进程 必须 同时 运行 。 

效率 ， 试 验证 明 ， 一 些 为 DSM 开 发 的 并 行程 序 可 以 完成 在 相同 硬件 上 一 至少 是 相对 少量 的 
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计算 机 (大约 10 台 左右 ) 一 一 使 用 消息 传递 机 制 的 应 用 程序 可 以 完成 的 功能 [Carter et al. 1991]。 然 
而 ， 这 一 结果 不 适用 于 所 有 的 系统 。 运 行 在 DSM 上 的 程序 的 性 能 取决 于 多 个 因素 ， 特 别 是 数据 共 
享 的 方式 (例如 一 个 数据 项 是 否 能 被 多 个 进程 更 新 ) ， 在 下 面 我 们 将 对 其 进行 讨论 。 

这 两 种 类 型 的 编程 的 开销 明显 不 同 。 在 消息 传递 机 制 中 ， 远 程 数 据 访问 是 显 式 的 ， 因 此 程序 
员 可 以 了 解 某 一 操作 是 进程 内 的 还 是 会 引起 通信 开销 的 。 而 在 使 用 DSM 时 ， 一 个 读 或 更 新 操作 可 
能 会 涉及 底层 运行 时 支持 的 通信 ， 也 可 能 不 涉及 。 是 否 涉及 通信 取决 于 若干 因素 ， 包 括 该 数据 之 
前 是 否 被 访问 过 ， 以 及 属于 不 同 计算 机 的 进程 之 间 的 内 存 共 享 模式 。 

DSM 是 否 比 消 息 传 递 机 制 更 适合 于 某 个 应 用 程序 ， 这 一 问题 没有 确定 的 答案 。DSM 是 一 个 非 
常 有 发 展 前 景 的 工具 ， 它 的 最 终 应 用 情况 取决 于 实现 效率 。 


18.1.2 DSM 的 实现 方法 


通过 使 用 专门 的 硬件 组 合 、 传 统 的 分 页 虚拟 内 存 或 者 中 间 件 ， 我 们 可 以 实现 分 布 式 共享 内 存 ; 

硬件 ， 基于 NUMA 体 系 结构 (例如 ，DashiLenoski et al. 1992] 和 PLUS[Bisiani and 
Ravishankar 1990]) 的 共享 内 存 多 处 理 器 体系 结构 依赖 专门 的 硬件 为 处 理 器 提供 一 致 共享 内 存 。 它 
们 通过 与 远程 内 存 和 缓存 模块 通信 来 处 理 内 存 LOAD 和 STORE 指令 ， 这 些 远程 内 存 和 缓存 存储 着 
所 需 的 数据 。 这 种 通信 和 是 在 一 种 和 网 络 类 似 的 高 速 连接 上 进行 的 。Dash 多 处 理 器 的 原型 拥有 用 
NUMA 体 系 结构 连接 方式 连接 的 64 个 节点 。 

分 页 康 拟 内 看: 许多 系统 将 DSM 实 现 为 一 个 虚拟 内 存 区 ， 这 一 虚拟 内 存 区 在 每 个 参与 的 进程 
内 占据 同样 的 地 址 范围 。 这 些 系统 包括 : Ivy[Li and Hudak 1989]、 Munin[fCarter et al. 1991]、 
Mirage{Fleisch and Popek 1989]、 Clouds[Dasgupta et al. 1991] ( 见 www.cdk4.net/oss) 、Choices 
[Sane et al. 1990]、COOLILea et al. 1993] 和 Mether[Minnich and Farber 1989]。 这 种 类 型 的 实现 适用 
于 具有 公共 数据 表示 和 分 页 格式 的 同 构 计 算 机 。 

中 间 件 : 一 些 像 Orca[Bal et al. 1990] 的 语言 和 一 些 像 Linda[Carriero and Gelernter 1989] 以 及 其 后 
的 JavaSpacesfBishop and Warren 2003] 和 TSpaces[Wyckoff et al. 1998] 的 中 间 件 可 以 以 与 平台 无 关 的 
方式 支持 DSM， 不 需要 额外 的 硬件 和 分 页 机 制 支持 。 在 这 种 类 型 的 实现 中 ， 通 过 在 客户 和 服务 器 上 
的 用 户 级 支持 层 之 间 的 实例 的 通信 来 实现 共享 。 当 进程 访问 DSM 中 的 数据 时 ， 它 对 这 一 支持 层 发 出 
调用 。 不 同 计算 机 上 的 这 一 戎 的 实例 访问 本 地 数据 ， 并 且 在 必要 时 进行 通信 以 维持 数据 一 致 性 。 

本 章 主 要 讨论 在 标准 计算 机 上 使 用 软件 来 实现 DSM。 即 使 使 用 有 硬件 支持 的 DSM 系 统 ， 系 统 
也 需要 使 用 高 层 软件 技术 的 支持 来 减少 组 件 之 间 的 通信 量 。 

基于 分 页 的 实现 方法 的 优点 在 于 不 给 DSM 强 加 某 种 结构 ，DSM 表 现 为 一 系列 的 字 节 。 原 则 上 ， 
它 可 以 使 共享 内 存 多 处 理 器 程序 运行 在 没有 共享 内 存 的 计算 机 上 。 像 Mach 和 Chorus 这 样 的 微 内 核 
系统 提供 了 对 DSM 的 支持 (以 及 对 其 他 内 存 抽象 的 支持 一 www.cdk4.net/mach 介 绍 Mach 的 虚拟 内 
存 设 施 )。 现 在 ， 基 于 分 页 的 DSM 系 统 通常 是 在 用 户 级 实现 的 ， 这 样 可 以 充分 利用 系统 提供 的 灵活 
性 。 这 种 类 型 的 实现 使 用 内 核 支持 来 处 理 用 户 级 的 页 失 配 。UNIX 和 一 些 版 本 的 Windows 系 统 可 以 
提供 这 一 功能 。 有 具有 64 位 地 址 空间 的 微 处 理 器 使 基于 分 页 的 DSM 的 应 用 范围 更 广 ， 它 放 松 了 对 地 
址 空间 管理 的 限制 [Bartoli et al. 1993]。 

图 18-2 给 出 的 例子 包含 两 个 C 语 言 程 序 ，Reader 和 Writer， 它们 通过 Mether 系 统 [Minnich and 
Farber 1989] 提 供 的 分 页 式 DSM 通 信 。Writer 程 序 更 新 在 Mether DSM 段 开始 处 (从 地 址 
METHERBASE 处 开始 ) 的 一 个 结构 中 的 两 个 域 的 值 ， 并 且 Reader 程 序 定 期 从 这 两 个 域 中 读 出 数据 
值 并 将 它 打印 出 来 。 

这 两 个 程序 都 不 包含 特殊 的 操作 ， 它 们 被 编译 成 机 器 指令 ， 这 些 指令 可 以 访问 每 个 公共 的 虚 
拟 内 存 区 (从 METHERBASE 处 开始 )。 Mether 系 统 运行 在 普通 的 Sun 工 作 站 和 网 络 硬件 上 。 
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#include "world.h" 
struct shared { int a,b; }; 
Program Writer: 


main{) 
{ 
struct shared *p; 
methersetup( ); 此 初始 化 Mether 运 行 时 系统 */ 
p= {struct shared *)METHERBASE: 
人 * 禾 盖 在 METHER 段 上 的 结构 */ 
p->a= p->b =0; /* 将 域 的 初 值 设 为 0*/ 
while{ TRUE) { 六 连续 更 新 结构 中 的 域 %/ 
p->a=p->at+l; 
p->b=p->b-1; 
} 
2 
Program Reader: 
main() 
{ 
struct shared yp 
methersetup( ); 
p= {struct shared *)METHERBASE; 
while{(TRUE) { ”每 秒 读 一 次 域 的 值 */ 
printh "a = %d, b = Wn", p ->a, p ->b); 
Sleep{ 1); 
2} 
2 








图 18-2 Mether 系 统 程序 


使 用 中 间 件 实现 DSM 的 方法 和 使 用 专门 硬件 及 分 页 的 方法 完全 不 同 ， 它 并 不 使 用 现 有 的 共享 
内 存 代码 。 它 能 使 我 们 开发 出 共享 对 象 的 更 高 级 别 抽象 ， 而 不 是 共享 内 存 地 址 位 置 。 


18.2 设计 和 实现 问题 


本 节 将 讨论 与 DSM 系 统 主要 特征 有 关 的 设计 和 实现 问题 。 它 们 是 :DSM 中 数据 的 结构 问题 
在 应 用 层 一 致 访问 DSM 的 同步 模型 ，DSM 的 一 致 性 模型 ， 它 负责 管理 不 同 计算 机 访问 数据 的 一 臻 
性 ， 在 计算 机 之 间 交 换 所 与 信息 的 更 新 选项 ， 在 DSM 实 现 中 的 共享 粒度 ， 颠 得 问 题 。 
18.2.1 结构 


第 15 章 讨论 了 复制 像 日 记 和 文件 这 样 的 对 象 的 系统 。 这 些 系统 允许 客户 程序 操纵 这 些 对 象 ， 
就 像 每 个 对 象 只 有 一 个 拷贝 一 样 ， 但 实际 上 ， 它 们 访问 的 是 多 个 不 同 的 物理 拷贝 。 系 统 对 对 象 副 
本 所 允许 的 差异 的 程度 做 出 保证 。 

DSM 系 统 就 是 如 上 所 述 的 一 个 复制 系统 。 每 一 个 应 用 程序 进程 拥有 一 些 抽象 的 对 象 集合 ， 但 
在 这 种 情形 下 , “集合 ”有 点 像 内 存 。 也 就 是 说 ， 可 以 用 不 同 的 方式 访问 对 象 。 访 问 DSM 的 不 同 的 
方式 的 区 别 在 于 : DSM 是 如 何 被 看 成 “对 象 ”的 以 及 是 如 何 找到 对 象 的 。 我 们 将 介绍 三 种 不 同 的 
访问 方法 ， 它 们 分 别 将 DSM 看 作 是 由 连续 的 字 告 、 语 言 级 对 象 或 不 变数 据 项 组 成 的 。 

面向 字 节 的 ” 像 访 问 通常 的 虚拟 内 存 一 样 访问 这 种 类 型 的 DSM 一 一 它 是 一 组 连续 的 字 节 。 
Mether 系 统 就 采用 了 这 种 方法 。 其 他 一 些 DSM 系 统 也 采用 了 这 一 方法 ， 包 括 Ivy 系 统 ， 我 们 将 在 
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18.3 节 介绍 它 。 这 种 方式 允许 应 用 程序 (以 及 语言 实现 ) 在 共享 内 存 上 实现 所 需要 的 任意 数据 结构 。 
这 些 共享 对 象 直接 是 可 寻 址 的 内 存 位 置 (实际 上 ， 这 些 共享 位 置 可 以 是 多 个 字 节 的 字 ， 而 不 是 单 
个 的 字 节 )。 对 这 些 对象 的 操作 只 有 两 种 : read (或 LOAD) 操作 和 write (或 STORE) 操作 。 如 果 
x 和 y 是 两 个 内 存 位 置 ， 下 面 是 使 用 这 两 种 操作 的 例子 : 

R(x)a 一 一 从 位 置 x 读 出 值 a 的 read 操 作 。 

W(x)b 一 一 将 值 b 写 入 位 置 x 的 write 操 作 。 

一 个 执行 序列 是 : W(x)1，R(x)2 。 该 进程 在 位 置 x 写 入 值 1， 然 后 从 这 一 位 置 读 出 值 2>。 这 是 
因为 可 能 有 其 他 进程 同时 在 该 地 址 写 人 值 2。 

面向 对 象 的 ”这 类 共享 内 存 由 一 系列 语言 级 的 对 象 如 栈 、 字 典 等 组 成 ， 这 些 对 象 比 简单 的 
read/write 变 量具 有 更 高 级 别 的 语义 。 应 用 程序 只 能 通过 调用 这 些 对 象 才 能 改变 共享 内 存 的 值 ， 而 
不 能 通过 直接 访问 成 员 变 量 来 改变 内 存 的 值 。 这 种 管理 内 存 的 方式 的 优点 在 于 可 以 利用 对 象 的 语 
义 来 加 强 一 致 性 。Orca 系 统 将 DSM 看 作 共 享 对 象 的 集合 ， 同 时 它 可 以 自动 对 给 定 的 对 象 操作 进行 
串 行 化 处 理 。 

不 变数 据 ”这 类 系统 将 DSM 看 作 一 组 不 变数 据 项 的 集合 ， 进 程 可 以 读 这 些 数据 项 ， 也 可 添加 
和 删除 数据 项 。 这 类 系统 包括 Agora 系 统 [Bisiani and Forin 1988] 和 更 为 著名 的 Linda 系 统 以 及 它 派 
生 的 TSpaces 和 JavaSpaces 系 统 。 

Linda 这 类 系统 向 程序 员 提供 了 元 组 的 集合 ， 称 为 元 组 空间 ( 见 16.3.1 节 )。 元 组 包含 一 个 或 多 
个 有 类 型 的 数据 域 ， 例 如 <“fred”，1958>、<“sid”，1964> 和 <4，9.8,“Yes”>。 在 同一 元 组 空 
间 内 可 能 会 存在 由 不 同类 型 元 组 联合 组 成 的 元 组 。 进 程 通过 访问 同一 元 组 空间 来 共享 数据 ， 它们 
通过 使 用 write 操作 来 向 元 组 空间 内 加 入 元 组 ， 并 通过 read 或 take 操 作 来 读 出 或 抽取 元 组 。write 操 作 
可 以 在 不 影响 元 组 空间 内 已 有 元 组 的 前 提 下 加 入 一 个 元 组 。read 操 作 可 以 在 不 影响 元 组 空间 内 容 的 
前 提 下 返回 一 个 元 组 的 值 。take 操 作 也 返回 -- 个 元 组 值 ， 但 它 同时 从 元 组 空间 内 删除 此 元 组 。 

当 从 元 组 空间 内 读 出 或 取出 一 个 元 组 时 ， 进 程 提供 一 个 元 组 规约 ， 系 统 从 元 组 空间 内 返回 符 
合 这 一 规约 的 元 组 ， 这 是 一 种 关联 寻 址 。 为 了 使 进程 间 的 活动 能 同步 ，read 操 作 和 take 操 作 会 被 阻 
塞 ， 直 到 在 元 组 空间 内 找到 符合 规约 的 元 组 为 止 。 一 个 元 组 规约 包括 元 组 的 域 的 数目 和 特定 域 中 
所 需 的 值 或 域 的 类 型 。 例 如 ，take (<String，integer>) 操作 可 能 会 获取 <“fred”，1958> 或 <“sid”， 
1964>，take (<String，1958>) 操作 只 会 获取 以 上 两 个 元 组 中 的 <“fred”，1958>。 

在 Linda 系 统 中 ， 系 统 不 允许 进程 直接 访问 元 组 空间 中 的 元 组 ， 因 此 进程 为 了 修改 元 组 必须 采 
用 一 个 新 的 元 组 替换 原 有 的 元 组 。 例 如 ， 假 设 在 元 组 空间 内 ， 有 多 个 进程 共享 一 个 计数 器 。 元 组 
<“counter ，64> 表 示 计 数 器 的 值 (为 64)。 为 了 在 元 组 空间 myTS 中 增加 计数 器 的 值 ， 进 程 必须 执 
行 以 下 形式 的 代码 : 


<s, Count>:= myTS.take (< “counter”, integer>) ， 





myTS.write (< “counter”, counte +1 >), 


因为 take 操 作 从 元 组 空间 内 获取 元 组 ， 所 以 读者 应 该 检查 系统 中 是 否 会 出 现 竞争 。 
18.2.2 同步 模型 


许多 应 用 程序 会 给 共享 内 存 存 储 的 值 加 上 某 些 约束 。 和 为 共享 内 存 的 多 处 理 器 系统 (或 者 是 
共享 数据 的 并 发 程序 ， 例 如 操作 系统 内 核 和 多 线程 服务 器 ) 编写 的 程序 一 样 ， 基 于 DSM 的 应 用 程 
序 也 采用 这 一 机 制 。 例 如 ， 如 果 a 和 b 是 存储 在 DSM 中 的 两 个 变量 ， 其 约束 可 以 是 a 永远 等 于 b。 如 
果 有 两 个 或 更 多 的 进程 同时 执行 以 下 代码 : 

a:=a+t+l; 

b:=b+ti, 


分 市 式 共 六 内 人 疗 481 


那么 可 能 发 生 不 一 致 。 假 设 a 和 b 的 初始 值 为 0%， 进 程 1 已 经 将 a 的 值 设 为 1。 在 它 将 b 的 值 设 为 1 之 前 ， 
进程 2 将 a 的 值 设 为 2 并 将 b 的 值 设 为 1。 这 就 违背 了 以 上 约束 。 其 解决 方法 是 将 这 一 代码 段 设置 为 临 
界 区 ， 这 样 可 以 保证 在 某 一 时 刻 只 有 一 个 进程 可 以 执行 它 。 

为 了 使 用 DSM ， 系 统 需 要 提供 一 个 分 布 式 同步 服务 ， 它 应 包括 与 锁 或 信号 量 相似 的 构造 。 甚 
至 当 DSM 是 由 一 组 对 象 组 成 时 ， 对 象 的 实现 也 必须 考虑 到 同步 机 制 。 通 过 使 用 消息 传递 ， 系 统 可 
以 实现 同步 机 制 ( 见 第 13 章 中 对 锁 服 务 器 的 描述 )。 在 共享 内 存 的 多 处 理 器 系统 中 为 进行 同步 而 使 
用 的 像 testAndSet 这 样 的 特殊 指令 也 可 以 应 用 于 基于 分 页 的 DSM， 但 这 些 操作 在 分 布 式 环境 下 的 效 
率 很 低 。 采 用 应 用 程序 级 同步 机 制 的 DSM 可 以 减少 更 新 传递 量 。 这 种 DSM 系 统 将 同步 机 制 看 作 是 
它 的 一 个 集成 的 组 件 。 


18.2.3 一 致 性 模型 


DSM 通 过 将 共享 内 存 的 内 容 缓存 在 不 同 的 计算 机 上 ， 来 复制 这 些 共享 内 容 。 正 如 我 们 在 第 15 
章 中 所 描述 的 那样 ， 像 DSM 这 样 的 系统 会 产生 一 致 性 问题 。 按 照 第 15 章 给 出 的 术语 ， 每 个 进程 拥 
有 一 个 本 地 副本 管理 器 ， 它 保存 存储 在 缓存 中 的 对 象 副 本 。 在 大 多 数 实现 中 ， 为 了 提高 效率 ， 系 
统 从 本 地 副本 中 读 取 数 据 ， 但 是 对 数据 的 更 新 必须 告知 其 他 副本 管理 器 。 

系统 通过 结合 中 间 件 (在 每 个 进程 的 DSM 运 行 时 层 ) 和 内 核 的 功能 来 实现 本 地 副本 管理 器 。 
通常 ， 中 间 件 完成 大 多 数 的 DSM 处 理 。 甚 至 在 基于 分 页 的 DSM 实 现 中 ， 内 核 通常 只 提供 基本 的 页 
映射 、 页 失 配 处 理 和 通信 机 制 ， 而 中 间 件 负责 实现 页 共享 策略 。 如 果 DSM 段 是 持久 的 ， 那 么 会 有 
一 个 或 多 个 存储 服务 器 〈 例 如 ， 文 件 服务 器 ) 扮演 副本 管理 器 的 角色 。 

除了 缓存 之 外 ，DSM 实 现 可 以 将 更 新 放 入 缓冲 区 ， 然 后 通过 一 次 传送 多 个 更 新 操作 来 减少 通 
信 开 销 。 第 15 章 介绍 的 gossip 体 系 结构 也 采用 了 类 似 的 方法 来 减少 通信 开销 。 

内 存 一 致 性 模型 [Mosberger 1993] 说 明了 DSM 系 统 所 采用 的 一 致 性 保证 。 该 模型 假设 进程 会 访 
问 每 一 个 对 象 的 副本 ， 并 且 有 多 个 进程 可 能 对 对 象 进行 更 新 ， 该 模型 能 保证 进程 读 取 数 据 的 一 至 
性 。 请 注意 ， 这 种 一 致 性 和 在 前 面 应 用 程序 同步 中 所 讨论 的 高 级 别 的 、 应 用 程序 特定 的 一 致 性 有 
所 不 同 。 

Cheriton[1985] 描 述 了 不 同形 式 的 DSM 可 以 接受 的 不 同 程度 的 不 一 致 性 。 例 如 ， 系 统 可 以 使 用 
DSM 来 存储 网 络 中 计算 机 的 负载 信息 ， 这 样 客户 可 以 选择 负载 最 小 的 计算 机 来 运行 应 用 程序 。 因 
为 这 些 信息 在 相当 短 的 时 间 片 内 本 身 就 是 不 精确 的 ， 因 此 ， 系 统 不 需要 在 任何 时 刻 在 所 有 计算 机 
上 都 保持 此 信息 的 一 致 性 。 

然而 ， 大 多 数 应 用 程序 需要 更 强 的 一 致 性 。 系 统 必须 给 程序 员 提供 一 个 一 致 性 模型 ， 由 模型 
规定 内 存 预期 的 表现 形式 。 在 详细 介绍 内 存 的 一 致 性 需求 之 前 ， 我 们 先 来 看 一 个 例子 ， 它 将 对 我 
们 理解 一 致 性 模型 有 所 帮助 。 和 

假设 一 个 应 用 程序 中 有 两 个 进程 (参见 i 
图 18-3)， 它 们 访问 两 个 变量 a 和 b，a、b 的 初始 值 gi2a 
都 为 0。 进 程 2 按 顺 序 将 a 和 b 的 值 加 1。 进 程 1 按 顺 “jar>brthen 
序 将 b 和 a 的 值 分 别 读 入 到 局 部 变量 br 和 ar 中 。 注 1 
意 ， 这 里 没有 应 用 程序 级 的 同步 。 直 觉 上 ， 进 程 “二 2， 
1 可 以 读 到 的 是 下 列 值 的 组 合 : ar=0，br=0，ar=1， 
br=0; ar=1，br=1， 这 取决 于 进程 1 在 进程 2 执行 
的 哪 一 点 上 读 a 和 b 的 值 ( 隐 含 在 语句 ar=a，br=b 图 18-3 访问 共享 变量 的 两 个 进程 
中 )。 换 名 话说，ar> br 总 能 满足 ， 进 程 1 总 能 打印 “OK”。 然 而 ，DSM 实 现 可 能 不 按照 进程 1 的 
副本 管理 器 更 新 数据 的 顺序 来 更 新 a 和 b 的 值 ， 所 以 在 这 种 情况 下 ，ar=0，br=1 这 样 的 值 的 组 合 
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也 可 能 出 现 。 

在 上 面 的 DSM 实 现 中 ， 两 个 更 新 的 顺序 被 颠倒 了 ， 用 户 对 这 个 例子 的 直接 反应 是 DSM 实 现 可 
能 是 不 正确 的 。 如 果 进 程 1 和 进程 2 同时 运行 在 一 个 单 处 理 器 的 计算 机 上 ， 我 们 可 以 认为 内 存 子 系 
统 出 错 了 。 然 而 ， 在 分 布 式 环境 中 ， 这 可 以 是 一 个 比 我 们 预计 的 一 致 性 模型 更 弱 一 些 的 一 致 性 模 
型 的 正确 表现 ， 虽 然 该 一 致 性 模型 比较 弱 ， 但 它 很 有 用 并 且 效 率 比 较 高 。 

Mosberger[1993] 列 出 了 用 于 共享 内 存 的 多 处 理 器 系统 和 软件 DSM 系 统 的 一 系列 一 致 性 模型 。 
在 DSM 中 实现 的 主要 是 顺序 一 致 性 模型 和 基于 弱 一 致 性 的 模型 。 

描述 某 个 内 存 一 致 性 模型 的 主要 问题 是 ， 当 进程 对 内 存 的 某 一 地 址 进行 读 操作 时 ， 由 于 可 能 
对 同一 地 址 进行 过 多 次 写 操作 ， 那 么 应 将 哪 一 个 值 返 回 给 读 操作 ? 在 最 弱 的 一 致 性 模型 中 ， 答 案 
是 将 读 操作 前 任意 一 个 写 操作 的 值 返回 给 读 操作 。 如 果 副 本 管理 器 以 一 种 不 确定 的 方式 延迟 更 新 
其 数据 ， 系 统 就 只 能 达到 这 种 一 致 性 。 这 种 一 致 性 太 弱 了 ， 以 至 于 没有 实际 用 处 。 

而 在 最 强 的 一 致 性 模型 中 ， 所 有 更 新 的 值 同 时 对 所 有 进程 都 有 效 ， 读 操作 返回 的 是 在 它 读 数 
据 时 的 最 新 的 更 新 值 。 这 一 定义 存在 两 方面 的 问题 。 首 先 , 读 操作 和 写 操作 都 需要 持续 一 段 时 间 ， 
它 不 是 一 个 简单 的 时 间 点 ， 因 此 ,“ 最 新 的 ”这 一 术语 的 意思 并 不 明确 。 每 一 种 类 型 的 访问 都 被 定 
义 为 在 一 个 时 间 点 上 发 生 ， 但 是 它们 需要 花费 一 定 的 时 间 (例如 ， 在 消息 传递 之 后 完成 ) 。 其 次 ， 
第 11 章 说 明了 在 分 布 式 系统 中 时 钟 同步 的 局 限 性 。 因 此 ， 很 难 精确 地 断定 一 个 事件 是 在 另 一 个 事 
件 前 发 生 。 

不 管 怎样 ， 人 们 还 是 给 出 并 研究 这 种 一 致 性 模型 。 读 者 可 能 已 经 对 它 有 所 了 解 。 在 第 15 章 中 ， 
它 被 称 为 线性 化 能 力 。 在 DSM 的 文献 中 ， 线 性 化 能 力 通常 被 称 为 原子 一 致 性 。 在 这 里 ， 我 们 将 重 
申 在 第 15 章 中 的 线性 能 力 的 定义 。 

如 果 对 于 任何 执行 ， 存 在 某 一 个 满足 下 列 条 件 的 全 体 客户 操作 的 序列 ， 那 么 一 个 复制 的 共享 
对 象 服务 被 认为 是 可 线性 化 的 。 

L1: 操作 的 交错 执行 序列 符合 对 象 的 (单个 ) 正确 副本 所 遵循 的 规约 。 

L2: 操作 之 间 的 交错 执行 序列 和 实际 运行 中 的 次 序 一 致 。 

这 一 定义 具有 普遍 性 ， 它 能 应 用 到 任何 包含 共享 复制 对 象 的 系统 。 因 为 我 们 将 把 它 应 用 于 共 
享 内 存 ， 所 以 我 们 对 它 作 详细 说 明 。 举 一 个 简单 的 例子 ， 假 设 一 个 共享 内 存 由 一 组 可 读 可 写 的 变 
量 组 成 。 所 有 的 操作 都 是 读 或 写 操 作 ， 在 这 里 我 们 使 用 18.2.1 节 中 曾经 使 用 过 的 表示 方法 : R(x)a 
表示 从 变量 x 中 读 出 值 a，W(x)b 表 示 向 变量 x 写 入 值 b。 我 们 可 以 用 变量 (共享 对 象 ) 的 形式 解释 第 
一 个 准则 

LI1 :如 果 交 错 执行 序列 中 有 一 个 R(x)a 和 操作， 那么 ， 或 者 在 发 生 这 一 操作 之 前 的 最 后 一 个 
write 操作 是 W(x) a， 或 者 在 此 之 前 没有 发 生 过 写 操作 并 且 x 的 初始 值 为 a。 

这 一 叭 则 隐 含 了 一 个 前 提 条 件 : 变量 只 能 被 写 操作 改变 。 线 性 化 能 力 的 第 二 个 准则 L2 则 保持 
不 变 。 

顺序 一 致 性 ”对 大 多 数 实际 应 用 来 说 ， 线 性 化 能 力 太 严格 了 。DSM 应 用 中 最 强 的 一 致 性 模型 
是 顺序 一 致 性 [Lamport 1979]， 我 们 在 第 15 章 曾经 介绍 过 它 。 这 里 ， 我 们 将 采用 第 15 章 的 定义 ， 并 
将 它 应 用 在 共享 变量 的 特例 中 ， 

如 果 对 于 任何 执行 ， 存 在 某 一 个 全 体 进程 操作 的 序列 ， 满 足以 下 两 个 准则 ， 则 说 一 个 DSM 系 
统 是 顺序 一 致 的 。 

SC1: 如 果 交 错 执 行 序列 中 有 一 个 R(x)a 操 作 ， 那 么 ， 或 者 在 发 生 在 这 一 操作 之 前 的 最 后 一 个 
write 操 作 是 W(x) a， 或 者 在 此 之 前 没有 发 生 过 写 操作 并 且 x 的 初始 值 为 a。 

SC2: 每 个 客户 执行 程序 的 顺序 和 交错 执行 中 的 操作 被 执行 的 顺序 一 致 。 

条 件 SC1 和 L1L 完全 相同 。 条 件 SC2 注 重 的 是 操作 在 程序 中 的 顺序 ， 而 不 是 时 序 ， 这 一 点 使 实 


ee 


现 顺序 一 致 性 成 为 可 能 。 

这 些 准 则 可 以 用 另 一 种 说 法 来 描述 : 在 一 个 虚拟 内 存 映像 上 有 一 个 所 有 进程 的 read 和 write 操 
作 的 虚拟 的 交错 执行 序列 。 该 交错 执行 序列 保持 了 每 个 操作 在 程序 中 的 顺序 ， 而 且 该 交错 序列 中 
每 个 read 操 作 读 取 的 都 是 最 后 被 写 人 的 值 。 

在 实际 执行 中 ， 只 要 不 违反 以 上 定义 中 的 约束 ， 内 存 操作 可 以 重 又 ， 并 且 在 不 同 的 进程 中 更 
新 的 顺序 可 以 不 同 。 请 注意 ， 为 了 满足 顺序 一 致 性 的 条 件 ， 要 考虑 在 整个 DSM 上 的 内 存 操作 一 一 
而 不 仅仅 是 单个 位 置 上 的 操作 。 

前 例 中 的 ar=0，br=1 的 组 合 不 可 能 发 生 在 符合 顺序 一 致 性 的 系统 中 ， 这 是 因为 进程 1 读 取 值 的 
顺序 与 进程 2 的 程序 顺序 相 冲 突 。 图 18-4 给 出 了 按 顺 序 一 致 性 执行 的 进程 内 存 访问 操作 。 另 外 ， 尽 
管 这 个 例子 显示 的 是 read 和 write 操作 实际 的 交错 执行 顺序 ， 但 一 致 性 定义 规定 了 操作 的 执行 应 该 像 
严格 的 交错 执行 一 样 。 

进程 1 


时 间 进程 2 


br := b; www， 疙 
8 
if(ar > br) then 

print ("OK"); 








图 18-4 顺序 一 致 性 下 的 交错 执行 


使 用 一 个 保存 所 有 共享 数据 的 服务 器 ， 并 且 使 所 有 的 进程 通过 向 服务 器 发 送 请 求 来 执行 read 和 
write 操 作 ， 这 样 可 以 实现 具有 顺序 一 致 性 的 DSM。 这 种 体系 结构 的 DSM 实 现 效 率 很 低 ， 下 面 将 介绍 
实际 使 用 的 实现 顺序 一 致 性 的 方法 。 不 过 ， 顺 序 一 致 性 一 直 是 一 个 实现 开销 比较 高 的 一 致 性 模型 。 

连贯 性 ”针对 顺序 一 致 性 模型 的 高 开销 ， 人 们 设计 出 了 一 个 更 弱 一 些 的、 具有 良好 特性 的 一 至 
性 模型 。 连 贯 性 是 一 种 弱 一 些 的 一 致 性 。 按 照 连 贯 性 要 求 ， 每 个 进程 就 同一 地 点 上 的 write 操 作 的 顺 
序 达 成 一 致 ， 但 对 不 同 地 点 上 的 write 操作 的 顺序 没 必要 达成 一 致 。 我 们 可 以 将 连贯 性 看 作 在 每 个 位 
置 上 实现 的 顺序 一 致 性 。 通 过 使 用 实现 顺序 一 致 性 的 协议 并 将 该 协议 应 用 在 每 个 复制 数据 单元 上 
(例如 每 一 页 ) ， 我 们 可 以 实现 连贯 的 DSM。 连 贯 的 DSM 的 优点 在 于 : 因为 协议 单独 应 用 到 每 个 页 
上 ， 所 以 对 不 同 的 页 的 访问 是 相互 独立 的 ， 一 个 访问 操作 不 会 对 其 他 页 的 访问 操作 造成 延迟 。 

弱 一 致 性 Dubois 等 [1988] 设 计 了 一 个 弱 一 致 性 模型 ， 该 模型 在 保留 顺序 一 致 性 效果 的 同时 ， 
试图 避免 在 多 处 理 器 上 顺序 一 致 性 的 开销 。 为 了 放宽 内 存 一 致 性 ， 该 模型 利用 了 同步 操作 所 隐 含 
的 信息 ， 这 样 对 程序 员 来 说 ， 系 统 实现 了 顺序 一 致 性 (至少 ， 在 某 些 环境 下 是 如 此 ， 但 这 超出 了 
本 书 的 介绍 范围 )。 例 如 ， 如 果 程 序 员 使 用 锁 机 制 来 实现 一 个 临界 区 ， 那 么 DSM 系 统 可 以 假设 没有 
其 他 进程 可 以 访问 加 上 互 斥 锁 的 数据 项 。 因 此 ， 在 进程 离开 临界 区 之 前 ，DSM 系 统 传播 这 些 数据 
项 的 更 新 信息 是 元 余 的 。 尽 管 数据 项 在 这 段 时 间 内 存储 的 数据 是 “不 一 致 的 "， 但 是 因为 在 这 段 时 
间 内 没有 其 他 进程 可 以 访问 它 ， 所 以 ， 这 些 执行 看 起 来 是 顺序 一 致 的 。Adve 和 Hill[1990] 推 广 了 弱 
一 致 性 概念 ， 称 为 弱 顺 序 性 :“ 当 且 仅 当 (一 个 DSM 系 统 ) 对 所 有 遵守 同步 模型 的 软件 都 表现 为 顺 
序 一 致 ， 则 它 相对 于 一 个 同步 模型 是 弱 顺 序 的 "。 释 放 一 致 性 是 弱 一 致 性 的 一 种 改进 模型 ， 18.4 节 
介绍 释放 一 致 性 。 


18.2.4 更 新 选项 
一 个 进程 向 其 他 进程 传递 更 新 数据 有 两 种 方法 : 写 更 新 和 写 失效 。 这 两 种 方法 可 以 应 用 到 各 
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种 DSM- - 致 性 模型 (包括 顺序 …- 致 性 模型 ) 上 。 下 面 简要 介绍 这 两 种 更 新 选项 ;: 
写 更 新 : 进程 所 进行 的 更 新 将 改变 本 地 数据 并 会 组 播 到 其 他 具有 此 数据 项 拷贝 的 副本 管理 器 
副本 管理 器 在 收 到 更 新 消息 后 会 立即 修改 本 地 进程 所 读 取 的 数据 (参见 图 18-5)。 进 程 可 以 读 
数据 项 的 本 地 拷贝 ， 而 不 需要 再 进行 通信 。 除 了 人 允许 多 个 读数 据 进程 之 外 ， 还 允许 多 个 进程 在 同 
一 时 刻写 同一 数据 项 ， 这 就 是 多 个 读 进程 /多 个 写 进程 共享 。 








2 \ 
Ey > if(a=7) then \ 
if a=7:. b:=b+l: i 
fb:=7: -一 | 

if(b=8) then > 7 
print("after"); 1 / 
时 间 4 2 





\ 
if(b=a) then , 
1 print("before"); | 


和 时间 / 
~ 信人 i 


图 18-5 使 用 写 更 新 的 DSM 


用 写 更 新 方法 实现 的 内 存 一 致 性 模型 依赖 于 多 种 因素 ， 其 中 主要 是 组 播 排序 属性 。 通 过 使 用 
全 排序 的 组 播 机 制 ( 见 第 12 章 对 全 排序 组 播 的 介绍 ) ， 并 且 要 求 更 新 消息 在 本 地 传递 后 才 返回 ， 系 
统 可 以 实现 顺序 一 致 性 。 所 有 的 进程 都 对 更 新 的 顺序 达成 一 致 。 在 任意 两 个 连续 的 更 新 之 间 的 读 
操作 集合 都 是 有 具有 良好 定义 的 ， 这 些 读 操作 的 顺序 对 顺序 一 致 性 来 说 是 无 基 紧 要 的 。 

在 写 更 新 方法 中 ， 读 操作 的 开销 较 少 。 然 而 ， 第 12 章 说 明了 用 软件 实现 排序 的 组 播 协议 的 开 
销 较 大 。Orca 使 用 写 更 新 方法 并 且 采 用 了 Amoeba 组 播 协议 [Kaashoek and Tanenbaum 1991] ( 见 
www.cdk4.net/coordination)， 它 使 用 硬件 来 支持 组 播 。Munin 将 写 更 新 作为 一 个 选项 。 在 PLUS 多 
处 理 器 体系 结构 中 ， 使 用 专门 的 硬件 支持 写 更 新 协议 。 

写 失 效 : 它 通常 应 用 在 多 个 读 进程 /单个 写 进程 共享 中 。 在 任意 时 刻 ， 通 常 有 一 个 或 多 个 进程 
以 只 读 的 方式 来 访问 一 个 数据 项 ， 或 者 该 数据 项 由 一 个 进程 进行 读 写 。 当 前 以 只 读 方式 访问 的 数 
据 项 可 以 有 多 个 数据 拷贝 。 当 一 个 进程 试图 写 这 个 数据 时 ， 系 统 首先 向 该 数据 的 所 有 拷贝 组 播 -- 
个 失效 消息 ， 并 且 在 写 操作 执行 之 前 得 到 收 到 失效 消息 的 确认 。 这 时 ， 系 统 阻止 其 他 进程 读 取 该 
数据 项 的 过 时 数据 (也 就 是 说 ， 这 个 数据 项 不 是 最 新 的 ) 。 如 果 有 一 个 写 进程 正在 写 数据 ， 其 他 
试图 访问 这 一 数据 项 的 进程 都 会 被 阻塞 。 最 后 ， 写 进程 交 出 控制 权 ， 其 他 进程 在 更 新 的 数据 被 送 
到 后 就 可 以 访问 此 数据 了 。 该 方案 是 在 先 来 先 服务 的 基础 上 处 理 数据 访问 的 。Lamportf1979] 证 明 
这 种 方案 可 以 获得 顺序 一 致 性 。 在 18.4 节 中 ,我们 可 以 看 到 在 释放 一 致 性 的 情况 中 ， 失 效 操作 可 
以 被 延迟 。 

在 这 种 失效 方案 中 ， 仅 当 数据 被 读 时 ， 更 新 信息 才 传 递 到 被 读 的 数据 拷贝 上 ， 并 且 在 这 种 更 
新 通信 前 可 能 会 进行 多 个 更 新 操作 。 但 其 缺点 是 : 在 写 操作 发 生前 ， 使 只 读 拷贝 失效 要 花费 一 些 
开销 。 在 所 描述 的 多 个 读 进 程 /单个 写 进程 方式 中 ， 这 种 开销 可 能 很 大 。 但 是 ， 如 果 读 / 写 率 很 高 ， 
那么 允许 多 个 读 进程 同时 访问 所 得 到 的 并 行 性 可 以 弥补 这 一 开销 。 当 读 / 写 率 很 低 时 ， 系 统 可 能 更 

合 采用 单个 读 进程 /单个 写 进程 方案 ， 即 在 某 一 时 刻 ， 最 多 只 允许 一 个 进程 进行 只 读 访问 。 


-本 8 一- 有 


18.2.5 粒度 


与 DBSM 结 构 相 关 的 一 个 问题 是 共享 的 粒度 。 从 概念 上 说 ， 所 有 的 进程 共享 DSM 的 所 有 内 容 。 
然而 ， 共 享 DSM 的 程序 执行 时 ， 实 际 上 只 在 执行 中 的 特定 时 间 内 共享 特定 的 一 部 分 数据 。 如 果 在 
DSM 实 现 中 进程 访问 和 更 新 数据 时 总 是 传输 整个 DSM 的 内 容 ， 那 么 就 会 产生 浪费 。 那么 在 DSM 实 
现 中 应 采用 什么 样 粒度 的 共享 单元 ? 也 就 是 说 ， 当 一 个 进程 对 DSM 进 行 写 操作 后 ， 为 了 保持 其 他 
地 点 的 数据 一 致 性 ，DSM 应 实时 发 送 什 么 样 的 数据 ? 

在 这 里 ， 我 们 主要 针对 基于 分 页 的 实现 ， 尽 管 粒 度 问题 在 其 他 实现 中 也 同样 存在 ( 见 练 习 
18.11)。 在 基于 分 页 的 DSM 中 ,硬件 能 有 效 地 进行 以 页 为 单位 的 地 址 变换 一 一 主要 是 通过 在 页 表 中 
放置 新 的 页 面 指针 (可 参见 Bacon[1998] 对 分 页 的 描述 )。 页 面 的 大 小 通常 可 以 达到 8Kb， 所 以 在 更 
新 发 生 时 ， 网 络 需 要 传输 相当 大 数量 的 数据 以 保持 远程 拷贝 的 一 致 性 。 在 默认 情况 下 ， 不 管 是 整 
页 更 新 ， 还 是 只 更 新 页 中 的 一 个 字 节 ， 系 统 都 要 进行 整 页 传输 。 

使 用 更 小 的 页 面 (512 字 节 或 1K 字 节 ) 并 不 会 使 整个 系统 的 性 能 得 到 明显 改进 。 首 先 ， 当 进程 
更 新 大 量 连 续 数据 时 ， 仿 输 一 个 大 一 些 的 页 比 传输 数 个 小 一 些 的 页 效率 高 ， 这 是 因为 每 个 网 络 分 
组 有 固定 的 软件 开销 。 其 次 ， 在 DSM 实 现 中 使 用 小 一 些 的 页 ， 系 统 就 必须 管理 更 多 的 数据 单元 。 

更 复杂 的 是 ， 当 页 很 大 时 ， 进 程 间 很 容易 产生 竞争 页 的 情况 。 这 是 因为 随 着 页 的 增 大 ,访问 
同一 页 内 的 数据 的 可 能 性 也 将 增 大 。 例 如 ， 有 两 个 进程 ， 一 个 进程 只 访问 数据 项 A， 而 另 一 个 进程 
只 访问 数据 项 B， 它 们 位 于 同一 页 内 (参见 图 18-6)。 具 体 来 说 ,假设 一 个 进程 读数 据 A， 另 一 个 写 
数据 B。 在 应 用 程序 层 ， 这 是 没有 冲突 的 。 然 而 ， 因 为 在 默认 情况 下 ，DSM 并 不 知道 这 一 页 的 哪 一 
个 位 置 被 改变 了 ， 所 以 系统 必须 在 进程 之 间 传 输 整个 页 。 这 种 现象 称 为 错误 共享 ， 即 有 两 个 或 多 
个 进程 共享 包括 多 个 部 分 的 页 面 ， 但 实际 上 每 个 部 分 只 被 一 个 进程 访问 。 在 写 失 效 协议 中 ， 错 误 
共享 可 能 导致 不 必要 的 失效 。 在 写 更 新 协议 中 ， 当 有 多 个 写 进程 错误 地 共享 数据 项 时 ， 可 能 会 导 
致 它们 对 一 个 老 版 本 数据 项 重复 更 新 。 


A_ B 
二- 一 一 一 页 0 C—O 页 Di+ 1 一 > 
图 18-6 在 页 上 分 布 的 数据 项 


实际 上 ， 尽 管 当 页 面 很 小 时 ， 可 以 用 几 个 连续 的 页 面 作为 数据 单元 ， 但 选择 共享 单元 的 大 小 
时 仍然 要 基于 可 用 物理 页 的 大 小 。 相 对 于 页 边界 进行 数据 布局 是 在 程序 执行 时 确定 传输 页 数目 的 
一 个 重要 因素 。 


18.2.6 系统 颠 艇 


写 失效 协议 的 一 个 六 在 问题 是 系统 颠 敏 。 相 对 于 应 用 进程 花费 在 正常 工作 上 的 时 间 而 言 ， 
DSM 在 失效 操作 和 传输 共享 数据 上 花费 了 大 量 的 时 间 ， 那 么 系统 就 会 发 生 颠 徐 。 当 多 个 进程 竞争 
同一 数据 项 或 错误 共享 的 数据 项 时 ， 系 统 会 产生 颠 签 。 例 如 ， 如 果 有 一 个 进程 反复 地 读 取 一 个 数 
据 项 ， 而 另 一 个 进程 有 规律 地 更 新 它 ， 那 么 写 数据 端 将 经 常 地 输出 数据 ;而 读数 据 端的 数据 经 党 
失效 。 在 这 个 例子 中 ， 写 更 新 方式 比 写 失效 方式 更 有 效 。 下 一 节 将 介绍 消除 颠 繁 的 Mirage 方 法 。 
在 该 方法 中 ， 计 算 机 只 在 一 小 段 时间 内 “拥有 ”页 面 。18.4 节 将 介绍 Munin 系 统 是 如 何 允 许 程序 员 
为 DSM 系 统 确定 访问 方式 的 ， 这 样 它 可 以 为 每 一 数据 项 选择 合适 的 更 新 方式 ， 避 免 系统 颠 繁 。 


18.3 顺序 一 致 性 和 Ivy 实 例 研究 


本 节 将 介绍 实现 顺序 一 致 的 、 基 于 分 页 的 DSM 的 方法 。 我 们 以 Ivy 系 统 [Li and Hudak 1989] 作 
为 一 个 实例 进行 研究 。 


>] 


63 


486 第 18 章 





18.3.1 系统 模型 

要 考虑 的 基本 模型 是 有 多 个 进程 共享 DSM 的 一 个 段 (参见 图 18-7)。 这 个 段 被 映射 到 每 个 进程 
的 相同 的 地 址 区 上 ， 所 以 在 这 个 段 中 可 以 存储 有 意义 的 指针 值 。 在 计算 机 上 执行 的 进程 都 配备 有 
分 页 的 内 存 管理 单元 。 我 们 可 以 假设 在 每 个 计算 机 上 只 有 一 个 进程 访问 DSM 段 。 实 际 上 在 一 个 计 
算 机 中 可 能 有 多 个 这 样 的 进程 。 然 而 ， 这 些 进程 可 以 直接 共享 DSM 页 (不 同 的 进程 可 以 使 用 在 计 
算 机 系统 页 表 中 的 同一 页 面 )。 唯 一 复杂 的 是 在 两 个 或 多 个 本 地 进程 访问 页 面 时 ， 如 何 协调 获取 和 
传播 页 面 更 新 。 下 面 的 描述 将 省 略 这 一 细节 。 







访问 分 页 DSM 


段 的 进程 

错误 重新 定向 Bad 人 
or 
程序 


在 网 络 上 传输 的 页 
图 18-7 基于 分 页 DSM 的 系统 模型 


分 页 机 制 对 于 进程 内 的 应 用 组 件 而 言 是 透明 的 ， 它 们 可 以 在 逻辑 上 读 写 DSM 中 的 任何 数据 。 
然而 ， 为 了 维护 处 理 读 写 时 系统 的 顺序 一 致 性 ，DSM 运 行 时 将 限制 页 的 访问 许可 。 分 页 内 存 管理 
单元 将 对 数据 页 的 访问 许可 设置 为 none、read-only 或 read-write 模 式 。 如 果 一 个 进程 试图 超越 当前 
的 访问 许可 ， 那 么 系统 会 根据 它 的 访问 方式 产生 一 个 读 页 失 配 或 写 页 失 配 错误 。 内 核 将 页 失 配 重 
定向 到 由 每 个 进程 中 的 DSM 运 行 时 层 指 定 的 一 个 处 理 程序 。 页 失 配 处 理 程 序 (对 应 用 程序 来 说 是 
透明 的 ) 在 把 控制 权 交还 给 应 用 程序 前 ， 以 下 面 介 绍 的 特殊 方式 处 理 这 种 失 配 。 在 像 Ivy 这 样 的 
DSM 系 统 中 ， 内 核 本 身 就 执行 了 我 们 在 上 面 介 绍 的 许多 处 理 。 我 们 将 介绍 执行 页 失 配 处 理 和 通信 
处 理 的 进程 。 实 际 上 ， 进 程 中 的 DSM 运 行 时 层 和 内 核 共同 提供 了 这 些 处 理 功能 。 通 常 ， 进 程 中 的 
DSM 运 行 时 层 包含 大 多 数 这 样 的 功能 ， 并 且 不 会 因为 改变 内 核 而 需要 重新 实现 和 优化 。 

这 里 的 描述 省 略 了 常规 虚拟 内 存 实现 中 的 页 失 配 处 理 。 除 了 DSM 段 可 能 会 和 其 他 段 竞争 页 面 
这 种 情况 之 外 ， 这 种 实现 是 相对 独立 的 。 

写 更 新 的 问题 ”前 一 节 简 要 介绍 了 写 更 新 和 写 失效 这 两 种 实现 方法 。 实 际 上 ， 如 果 DSM 是 基 
于 分 页 的 ， 那 么 只 有 当 写 操作 的 更 新 数据 可 以 被 缓存 时 ， 系 统 才 可 以 使 用 写 更 新 方法 。 这 是 因为 
基本 的 页 失 配 处 理 不 适合 对 一 个 页 面 进行 多 个 更 新 的 任务 。 

为 了 说 明 这 一 点 ， 假 设 每 一 次 更 新 都 要 组 播 到 其 余 的 数据 副本 上 。 假 设 已 经 对 一 个 页 设置 了 
写 保护 。 当 一 个 进程 试图 对 这 个 页 进行 写 操作 时 ， 系 统 会 产生 一 个 页 失 配 并 且 调 用 一 个 处 理 程序 
的 页 失 配 处 理 进程 。 在 原则 上 ， 这 个 处 理 程序 会 检查 产生 失 配 的 指令 以 决定 被 写 入 的 值 和 地 址 ， 
在 恢复 写 访问 和 返回 到 导致 失 配 的 指令 前 ， 它 会 组 播 所 做 的 更 新 。 

但 是 如 果 已 经 恢复 写 访问 ， 随 后 对 此 页 的 更 新 就 不 会 引起 页 失 配 。 为 了 使 每 个 对 此 页 的 写 操 
作 都 产生 页 失 配 ， 页 失 配 处 理 程序 需要 将 进程 设置 为 TRACE 模式 ， 这 样 系统 在 每 执行 一 条 指令 后 
都 产生 一 个 TRACE 异 常 。TRACE 异 常 处 理 程序 将 关闭 对 该 页 的 写 访问 许可 ， 然 后 再 次 关闭 
TRACE 模式 。 当 系统 遇 到 下 一 个 页 失 配 时 ， 它 会 重复 整个 操作 。 显 而 易 见 ， 这 种 操作 方法 的 开销 
相当 大 。 在 进程 的 执行 过 程 中 ， 系 统 可 能 会 产生 许多 异常 。 

实际 上 ， 写 更 新 应 用 在 基于 分 页 的 实现 中 ， 并 且 仅 仅 在 下 列 情况 中 页 仍然 保持 写 许 可 : 在 第 
一 个 页 失 配 发 生 后 ， 并 且 在 传播 更 新 的 页 之 前 ， 系 统 允 许多 个 写 操作 发 生 。Munin 使 用 了 这 种 写 缓 


冲 技 术 。 作 为 一 种 极 有 效 的 方法 ，Munin 系 统 试图 避免 传播 整个 页 一 一 可 能 这 个 页 中 只 有 一 小 部 分 
被 更 新 。 当 一 个 进程 第 一 次 试图 写 这 个 页 时 ，Munin 系 统 处 理 失 配 的 方法 是 : 在 允许 写 操作 之 前 获 
得 这 个 页 的 拷贝 ， 并 将 其 放 在 一 边 。 然 后 ， 当 Munin 准 备 传播 这 一 页 时 ， 它 将 更 新 的 页 和 保存 的 页 
拷贝 进行 比较 ， 并 将 两 个 页 的 差异 进行 编码 。 这 些 差 异 的 数据 量 通常 比 一 个 整 页 的 数据 量 小 。 其 
他 进程 可 以 根据 这 些 差 异 和 更 新 前 的 页 拷贝 生成 更 新 后 的 页 拷贝 。 


18.3.2 写 失效 


基于 失效 的 算法 使 用 页 保护 来 实现 一 致 性 数据 共享 。 当 一 个 进程 更 新 一 个 页 时 ， 该 进程 持 有 
对 本 地 数据 的 读 和 写 许 可 ， 其 他 进程 没有 对 该 页 的 访问 许可 。 当 有 一 个 或 多 个 进程 读 一 个 页 时 ， 
这 些 进 程 具有 只 读 许可 ， 其 他 进程 没有 访问 许可 (尽管 它们 可 以 获得 读 许 可 )。 除 此 之 外 ， 没 有 第 
三 种 情况 。 拥 有 页 p 最 新 版 本 的 进程 被 指定 为 这 一 页 的 拥有 者 ， 表 示 为 owner(p)。 它 可 能 是 单个 写 
进程 ， 也 可 能 是 多 个 读 进程 中 的 一 个 。 拥 有 页 p 拷 贝 的 进程 集合 称 为 拷贝 集 ， 表 示 为 copyset(p)。 

图 18-8 给 出 了 可 能 的 状态 转换 。 当 一 个 进程 P, 试 图 写 页 p， 并 且 它 对 这 一 页 没有 访问 权限 或 只 
有 只 读 权限 时 ， 会 发 生 一 个 页 失 配 。 以 下 是 这 一 页 失 配 的 处 理 过 程 ，; 

* 如 果 P, 进 程 不 拥有 最 新 的 只 读 拷贝 ， 将 这 一 页 传 给 它 。 

“这 一 页 的 其 他 拷贝 都 失效 ， 即 所 有 copyset(p) 成 员 的 页 访问 许可 被 设置 为 不 允许 访问 。 

» copyset(p):={P,}。 

°* owner(p):= P,,。 

*P, 中 的 DSM 运 行 时 层 在 地 址 空间 的 合适 位 置 给 这 一 页 加 上 读 一 写 许可 ， 并 且 从 导致 失 配 的 指 

令 处 重新 执行 。 

请 注意 ， 两 个 以 上 拥有 只 读 拷贝 的 进程 可 能 在 同一 时 间 发 生 写 失 配 。 当 系统 最 终 授予 页 所 有 
权时 ， 这 个 页 的 一 个 只 读 拷贝 可 能 已 经 不 是 最 新 的 了 。 为 了 检查 当前 页 的 只 读 拷贝 是 否 是 最 新 的 ， 
系统 可 以 记录 每 个 页 的 序列 号 ， 当 页 的 所 有 权 转 移 时 ， 它 的 序列 号 会 加 1。 当 一 个 进程 需要 进行 写 
访问 时 ， 它 会 获得 这 个 只 读 拷贝 的 序列 号 。 当 前 的 拥有 者 就 可 以 知道 这 个 页 是 否 已 经 被 更 新 ， 是 
否 需要 发 送出 去 。Kessler 和 Livny[1989] 将 这 一 方案 描述 为 “准确 算法 。 

单个 写 进程 局 多 个 读 进 程 
P, 写 ; 没有 “er Pri, Prz,…, Pu 读 ;， 


其 他 进程 读 ” < 没有 其 他 进程 写 
W 
(失效 ) 
W 


(失效 ) R 
注意 : R = 发 生 读 页 失 配 ; W = 发 生 写 页 失 配 。 
图 18-8 在 写 失效 方法 中 的 状态 转换 
当 进 程 PR 试图 读 页 p， 而 它 没 有 对 这 一 页 的 访问 许可 时 ， 系 统 就 会 发 生 一 个 读 失 配 。 以 下 是 这 
一 页 失 配 的 处 理 过 程 : 

。 系统 将 页 从 owner(p) 拷 贝 到 Pk 中 。 

* 如 果 当 前 页 拥有 者 是 单个 写 进程 ， 那 么 仍然 保留 它 对 p 的 所 有 权 ， 并 且 它 对 p 的 访问 许可 被 设 
置 为 只 读 访 问 。 系 统 最 好 保留 它 的 读 访问 许可 ， 因 为 这 一 进程 随后 可 能 试图 读 这 一 页 一 它 
已 经 保留 了 这 一 页 的 一 个 最 新 拷贝 。 然 而 ， 即 使 这 一 进程 不 再 访问 这 一 页 ， 但 因为 它 是 这 一 
页 的 拥有 者 ， 它 也 必须 处 理 随 后 的 对 这 一 页 的 请 求 。 这 说 明 系 统 最 好 将 这 一 进程 的 访问 许可 
改 为 不 允许 访问 ， 并 且 将 页 的 拥有 权 转 交 给 Ph。 

®* copyset(p):= copyset(p) U { PR }。 





+- 





+- 


-J 


488 匣 18 章 





* Px 中 的 DSM 运 行 时 层 在 地 址 空间 的 合适 位 置 给 这 一 页 加 上 只 读 许可 ， 并 且 从 发 生 失 配 的 指令 

处 重新 执行 。 

系统 可 能 在 执行 上 面 所 介绍 的 转换 算法 时 发 生 第 二 个 页 失 配 。 为 了 使 这 一 转换 能 一 致 地 执行 ， 
系统 不 处 理 新 的 页 请 求 ， 直 到 这 一 转换 完成 为 止 。 

以 上 仅 介 绍 了 必须 做 什么 。 下 面 将 介绍 如 何 高 效 实现 页 失 配 处 理 。 


18.3.3 失效 协议 

实现 失效 方案 要 解决 协议 中 的 两 个 重要 问题 ， 

1) 如 何 为 给 定 的 页 p 定 位 owner(p)? 

2) 在 哪里 存储 copyset(p)? 

在 Ivy 系 统 中 ，Li 和 Hudakf1989] 描 述 了 几 种 体系 结构 和 协议 ， 它 们 采用 了 多 种 方法 来 解决 这 一 
问题 。 我 们 要 介绍 的 一 个 最 简单 的 算法 是 他 们 改进 的 中 央 管 理 器 算法 。 在 这 个 算法 中 ， 系 统 使 用 
一 个 称 为 管理 器 的 服务 器 来 为 每 个 页 p 存 储 owner(p) 的 位 置 (传输 地 址 ) 。 这 个 管理 器 可 能 是 运行 应 
用 程序 的 进程 之 一 ， 也 可 能 是 其 他 进程 。 在 这 个 算法 中 ， 系 统 将 集合 copyset(p) 存 储 在 owner(p) 处 。 
也 就 是 说 ， 系 统 存储 copyset(p) 成 员 的 进程 标识 符 和 传输 地 址 。 

如 图 18-9 所 示 ， 当 一 个 页 失 配 发 生 时 ， 本 地 进程 (我 们 称 为 客户 ) 向 管理 器 发 送 一 个 包含 页 
号 和 关于 访问 类 型 〈 读 和 读 - 写 ) 的 消息 。 然 后 客户 等 待 应 答 。 管 理 器 查找 owner(p) 的 地 址 并 将 这 
一 请 求 转发 给 页 拥有 者 。 在 发 生 写 失 配 的 情况 下 ， 管 理 器 将 新 的 拥有 者 设 为 写 数据 的 客户 ， 后 续 
的 请 求 会 在 客户 处 进行 排队 ， 直 到 客户 完成 了 所 有 权 转 换 再 进行 处 理 。 

发 生 页 失 配 的 进程 当前 拥有 者 








1 页 号 ， ms, > 请 求 者 、 页 号 、 访 问 






图 18-9 中 央 管理 器 和 与 其 相关 的 信息 


页 的 前 一 个 拥有 者 将 这 一 页 传 给 客户 。 在 发 生 写 失 配 的 情况 下 ， 它 同时 也 发 送 页 的 拷贝 集 
copyset(p)。 当 客户 得 到 这 个 拷贝 集 时 ， 它 就 执行 失效 过 程 。 它 向 拷贝 集 的 成 员 进 程 组 播 一 个 请 求 ， 
并 等 待 这 些 进程 发 回 “失效 已 经 发 生 ” 的 确认 信息 。 这 一 组 播 不 需要 进行 排序 。 客 户 不 需要 向 前 
一 个 页 拥有 者 发 送 失 效 消息 ， 因 为 它 在 转移 所 有 权时 已 经 将 自己 失效 了 。 至 于 拷贝 集 的 管理 问题 
留 给 读者 自己 解决 ， 读 者 可 以 参考 上 面 所 描述 的 通用 失效 算法 来 解决 该 问题 。 

管理 器 是 系统 性 能 的 瓶颈 ， 并 且 是 故障 的 关键 点 。Li 和 Hudak 介 绍 了 三 种 改进 的 方法 来 使 多 个 
计算 机 共同 承担 页 管理 的 负载 ,固定 的 分 布 式 页 管理 、 基 于 组 播 的 分 布 式 管理 和 动态 分 布 式 管理 。 
在 第 一 种 方法 中 ， 系 统 使 用 多 个 管理 器 ， 每 一 个 管理 器 在 功能 上 都 与 上 面 介绍 的 中 央 管 理 器 等 价 ， 
页 面 被 静态 地 划分 给 这 些 中 央 管 理 器 。 例 如 ， 每 一 个 管理 器 只 管理 页 号 被 散 列 函数 处 理 后 落 到 某 
个 值 域内 的 页 。 客 户 计算 所 需 页 的 散 列 数 ， 在 一 个 预先 确定 的 配置 表 中 找到 相应 管理 器 的 地 址 。 

这 种 方案 通常 可 以 缓解 负载 集中 的 问题 ， 但 是 缺点 在 于 系统 可 能 不 适合 使 用 固定 的 从 页 到 管 
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理 器 的 映射 。 当 进程 不 是 均匀 地 访问 页 时 ， 一 些 管 理 器 的 负载 可 能 比 其 他 管理 器 的 负载 大 很 多 。 
下 面 将 介绍 基于 组 播 的 分 布 式 管理 和 动态 分 布 式 管理 。 

使 用 组 播 来 定位 拥有 者 ”使 用 组 播 机 制 可 以 完全 不 使 用 管理 器 。 当 一 个 进程 发 生 页 失 配 时 ， 它 
将 自己 的 页 请 求 组 播 给 其 他 进程 。 只 有 拥有 此 页 的 进程 给 出 应 答 。 但 必须 注意 ， 可 能 会 有 两 个 客 
户 在 同一 时 刻 发 出 对 同一 页 的 请 求 ， 甚 至 在 一 个 进程 正在 进行 所 有 权 转 换 时 ， 另 一 个 进程 发 出 对 
这 一 页 的 请 求 ， 这 都 可 能 导致 两 个 客户 同时 拥有 这 一 页 。 

假设 有 两 个 客户 C, 和 C:， 它 们 使 用 组 播 来 定位 进程 0 拥有 的 页 。 假 设 O 首 先 接收 到 C, 的 请 求 ， 
并 将 所 有 权 传 给 它 。 在 传输 的 页 面 到 达 C, 之 前 ，C: 对 这 一 页 的 请 求 到 达 O 和 Ci， 因 为 O 不 再 拥有 这 
一 页 ， 所 以 它 会 拒绝 这 一 请 求 。Li 和 Hudak 指 出 ，C 会 延迟 处 理 C, 的 请 求 ， 直 到 它 获得 这 一 页 为 
止 ; 否则 ， 因 为 它 还 不 是 拥有 者 ， 请 求 会 被 丢失 。 然 而 ， 这 样 仍然 有 问题 。 因 为 C; 的 等 待 队 列 中 也 
会 有 C 的 请 求 。 当 Cl 最 终 将 页 面 传 给 C, 时 ，C, 就 会 接收 和 处 理 C, 的 请 求 ， 而 这 一 请 求 已 经 过 期 了 。 

这 个 问题 的 一 个 解决 方法 是 使 用 全 排序 组 播 ， 这 样 客户 可 以 拒绝 那些 在 自己 的 请 求 到 达 前 收 
到 的 请 求 (进程 会 将 请 求 发 送 给 自己 ， 就 像 它 将 请 求 发 送 给 其 他 进程 一 样 )。 另 一 种 解决 方法 是 在 
每 页 上 记录 一 个 时 间 葵 向量， 其 中 每 个 分 量 代表 一 个 进程 〈 见 第 11 章 介绍 的 时 间 惟 向量) ， 这 一 方 
法 可 以 使 用 开销 更 少 的 无 序 组 播 ， 但 是 消耗 的 带宽 要 多 一 些 。 当 页 的 所 有 权 转 移 时 ， 时 间 蕉 也 随 
之 转移 。 当 一 个 进程 获得 控制 权 ， 它 会 增加 自己 在 页 时 间 截 向 量 中 的 时 间 蕉 的 值 。 当 一 个 进程 请 
求 页 的 所 有 权时 ， 它 会 同时 发 送 它 最 后 一 次 获得 这 一 页 面 的 时 间 惟 。 在 我 们 给 出 的 例子 中 ， 因 为 
C, 的 请 求 时 间 攻 低 于 C: 获 得 页 的 时 间 发 向 量 中 C, 的 时 间 戳 ， 所 以 C; 会 拒绝 C, 的 请 求 。 

不 管 系统 使 用 的 是 有 序 组 播 还 是 无 序 组 播 ， 这 一 方法 拥有 组 播 方法 共同 的 缺点 : 不 是 页 拥有 
者 的 进程 也 会 被 不 相关 的 信息 中 断 ， 从 而 浪费 了 它 的 处 理 时 间 。 


18.3.4 一 个 动态 分 布 式 管理 器 算法 


Li 和 Hudak 建 议 的 动态 分 布 式 管理 器 算法 允许 在 进程 之 间 传 递 页 所 有 权 ， 但 是 它 没有 使 用 组 播 
机 制 ， 而 是 使 用 了 另 一 种 定位 页 所 有 者 的 方法 。 该 方法 是 在 访问 页 的 计算 机 之 间 分 担 定 位 页 操作 
的 负载 。 对 每 个 页 p ， 每 个 进程 都 记录 该 页 当前 拥有 者 的 提示 信息 一 -p 的 可 能 拥有 者 被 记 为 
probOwner(P)。 开 始 时 ， 每 个 进程 都 记录 了 页 位 置 的 精确 信息 。 然 而 ， 在 一 般 情 况 下 ， 这 些 值 称 为 
提示 信息 ， 这 是 因为 页 可 以 在 任意 时 间 内 转换 它 的 所 有 权 。 而 在 以 前 的 算法 中 ， 系 统 只 在 发 生 写 
失 配 时 才 转 换 页 所 有 权 。 

系统 可 以 沿 着 提示 信息 组 成 的 提示 链 (因为 页 的 所 有 权 会 从 一 台 计 算 机 转换 到 另 一 台 计算 机 ) 
来 找到 页 拥有 者 。 这 条 提示 链 的 长 度 (也 就 是 为 了 找到 拥有 者 需要 转发 消息 的 次 数 ) 可 能 会 无 限 
增长 。 通 过 在 有 更 新 的 值 可 用 时 才 更 新 提示 信息 的 方法 ， 该 算法 解决 了 这 个 问题 。 以 下 就 是 更 新 
提示 信息 以 及 转发 请 求 信息 的 过 程 : 

* 当 一 个 进程 将 页 p 的 所 有 权 传 输 给 其 他 进程 时 ， 它 将 probOwner(p) 设 置 为 接收 进程 。 

* 当 一 个 进程 处 理 页 p 的 失效 请 求 时 ， 它 将 probOwner(p) 设置 为 请 求 进程 。 

。 当 一 个 请 求 读 访问 的 进程 获得 页 p 时 ， 它 将 probOwner(p) 设置 为 页 的 提供 进程 。 

* 当 一 个 进程 接收 到 对 一 个 不 属于 它 的 页 p 的 请 求 时 ， 它 将 这 一 请 求 转发 给 probOwner(p) 进 程 ， 

并 且 将 probOwner(p) 设置 为 请 求 进程 。 

前 三 种 更 新 只 在 转移 页 所 有 权 和 提供 只 读 拷贝 时 发 生 ， 而 转发 请 求 时 更 新 所 有 者 的 合理 性 在 
于 : 对 于 写 请 求 ， 请 求 者 立即 成 为 拥有 者 。 实 际 上 ， 在 Li 和 Hudak 的 算法 中 ， 不 管 进程 接收 到 是 读 
请 求 还 是 写 请 求 ， 它 立即 进行 probOwner 更 新 。 后 面 我 们 将 再 对 这 一 内 容 进 行 讨 论 。 

图 18-10 (a 和 b) 表示 了 在 进程 A 发 生 一 个 写 页 失 配 之 前 和 之 后 的 probOwner 指 针 的 情况 。 进 程 
A 的 probOwner 指 针 最 初 是 指向 进程 B 的 ， 进 程 B、C 和 D 的 probOwner 指 针 组 成 的 指针 链 最 终 将 请 求 
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发 送 到 进程 E。 然 后 ， 根 据 刚 才 所 介绍 的 更 新 规则 ， 这 些 指针 都 被 修改 为 指向 进程 A。 在 处 理 完 页 
失 配 后 的 指针 安排 显然 要 优 于 处 理 前 的 指针 安排 ; 指针 链 消 失 了 。 


然而 ， 如 果 A 发 生 了 读 失 配 ， 那 么 进程 B 对 这 一 i 

页 的 访问 步 又 变 少 了 (原来 访问 E 需 要 三 步 ， 现 在 只 ~ 一) © 
需要 两 步 )， 进 程 C 对 这 一 页 的 访问 和 以 前 一 样 (都 拥有 者 
是 两 步 )。 但 是 ， 进 程 D 的 情况 变 精 了 ， 原 来 只 需要 (a) 

一 步 ， 现 在 需要 两 步 (参见 图 18-10c) 。 为 了 观察 这 


a) 在 进程 A 在 E 拥 有 的 页 上 发 生 一 个 页 失 配 前 
一 策略 的 性 能 ， 需 要 进行 模拟 。 的 probOwner 指 针 情 况 


通过 定期 向 所 有 进程 广播 页 的 当前 拥有 者 地 址 (8) , 

可 以 控制 指针 链 的 平均 长 度 。 在 一 次 广播 后 ， 所 有 p> ~ 
的 指针 链 的 长 度 为 1。 ps 
为 了 观察 指针 更 新 算法 的 效率 ，Li 和 Hudak 实 现 dd 


了 一 个 仿真 系统 ， 并 给 出 了 仿真 结果 。 如 果 随机 选 。 。b) 写 拓 配 ， 在 的 写 浅 来 被 续 发 必 的 
择 失 配 进程 ， 对 1024 个 处 理 器 ， 如 果 系 统 平均 每 256 probOwner 指 针 的 情况 


个 页 失 配 就 广播 一 次 拥有 者 地 址 ， 消 息 到 达 页 拥有 ? LE ， 
拥有 者 


者 的 平均 传递 步骤 是 2.34， 而 如 果 平 均 每 1024 个 失 配 


广播 一 次 ， 那 么 平均 传递 步 又 是 3.64。 这 些 数字 只 作 
请 注意 ， 使 用 中 央 管 理 器 的 DSM 系 统 也 需要 两 条 消 c) 读 失 配 ， 在 A 的 读 请 求 被 转发 后 的 






为 一 个 参考 ，Li 和 Hudak[1989] 给 出 了 完整 的 结果 。 


息 才 能 到 达 页 拥有 者 。 probOwner 指 针 的 情况 
最 后 ，Li 和 Hudak 描 述 了 一 种 优化 方法 ， 该 方法 图 18-10 更 新 probOwner 指 针 


可 能 会 提高 失效 操作 的 效率 ， 并 减少 处 理 一 个 读 页 失 配 所 需 的 消息 数 。 在 此 算法 中 ， 进 程 不 需要 
从 页 拥有 者 那里 获取 页 拷贝 ,客户 可 以 从 任何 拥有 正确 拷贝 的 进程 中 获得 拷贝 。 当 客户 试图 定位 
页 拥有 者 时 ， 它 可 能 沿 指针 链 到 达 拥 有 者 之 前 就 遇 到 一 个 拥有 正确 拷贝 的 进程 。 

为 了 实现 这 一 点 ， 进 程 必须 保留 一 个 从 该 进程 获得 页 拷贝 的 客户 记录 。 拥 有 页 的 只 读 拷贝 的 
进程 被 组 织 成 一 个 树 ， 它 的 根 就 是 页 拥有 者 ， 每 个 节点 指向 子 节点 ， 这 些 子 节点 从 父 节点 获得 页 
拷贝 。 一 个 页 的 失效 操作 从 页 拥有 者 开始 ， 并 沿 着 树 向 下 传递 。 当 一 个 节点 收 到 失效 消息 后 ， 它 
将 此 消息 传递 给 其 子 节点 ， 并 使 子 节点 上 的 页 找 贝 失效 。 最 好 效果 是 使 一 些 失效 操作 并 行进 行 。 
这 样 可 以 减少 使 一 个 页 失效 所 花费 的 时 间 ， 特 别 是 在 硬件 不 支持 组 播 的 系统 环境 中 更 为 有 用 。 
18.3.5 系统 颠 敏 

有 一 种 说 法 认为 避免 系统 颠 壬 是 程序 员 的 职责 ， 这 种 说 法 是 有 争议 的 。 为 了 帮助 DSM 运 行 时 
层 尽 可 能 减少 页 拷贝 和 所 有 权 转 换 ， 程 序 员 可 以 为 数据 项 加 上 注解 。 下 一 节 介 绍 Munin DSM 系 统 
时 会 介绍 这 一 方法 。 

Mirage[Fleisch and Popek 1989] 采 用 的 解决 系统 颠 壬 问题 的 方法 对 程序 员 是 透明 的 。Mirage 将 
每 一 个 页 与 一 段 较 小 的 时 间 间 隔 联 系 起 来 。 当 进程 访问 页 时 ， 系 统 可 以 在 给 定 的 时 间 间 隔 (就 像 某 
种 类 型 的 时 间 片 ) 内 进行 该 访问 。 对 这 一 页 的 其 他 访问 同时 也 被 延迟 。 这 一 方案 的 一 个 明显 的 缺点 
是 很 难 确定 时 间 片 的 长 度 。 如 果 系 统 使 用 一 个 静态 选择 的 时 间 长 度 ， 在 很 多 情况 下 是 不 合适 的 。 例 
如 , 一 个 进程 可 能 只 访问 一 个 页 面 一 次 ,然后 再 也 不 访问 它 了 ， 然 而 ,其 他 进程 的 访问 因此 被 延迟 。 
考虑 到 公平 性 ， 系 统 可 以 在 这 一 进程 结束 对 页 的 使 用 之 前 就 赋予 其 他 进程 访问 这 一 页 的 权利 。 

DSM 系 统 可 以 动态 地 选择 时 间 片 的 长 度 ， 可 以 基于 对 页 访问 操作 的 观察 (使 用 内 存 管理 单元 
的 引用 位 ) 来 选择 。 另 一 个 要 考虑 的 因素 是 等 待 一 个 页 的 进程 队列 的 长 度 。 
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18.4 释放 一 致 性 和 Munin 实 例 研 究 


前 一 节 所 介绍 的 算法 用 来 实现 顺序 一 致 的 DSM。 顺 序 一 致 性 的 优点 是 DSM 能 以 程序 员 所 希望 
的 方式 来 共享 内 存 。 它 的 缺点 是 是 实现 开销 比较 大 。 在 DSM 中 ， 不 论 使 用 写 更 新 或 写 失效 算法 ， 它 
的 实现 通常 都 需要 组 播 机 制 一 一 虽然 失效 操作 使 用 无 序 组 播 就 足够 了 。 定 位 页 拥有 者 的 开销 也 比较 
大 : 管理 所 有 页 拥有 者 的 位 置 的 中 央 管 理 器 很 可 能 会 成 为 系统 的 瓶颈 ， 如 果 使 用 进程 指针 ， 则 要 
传递 更 多 的 消息 。 另 外 ， 基 于 失效 的 算法 可 能 引起 系统 颠 壬 。 

释放 一 致 性 是 由 Dash 多 处 理 器 系统 引入 的 ， 这 一 系统 是 用 硬件 实现 DSM 的 ， 主 要 使 用 的 是 写 
失效 协议 [Lenoski et al. 1992]。Munin 和 Treadmarks[Keleher et al. 1992] 使 用 软件 实现 了 这 一 系统 。 
释放 一 致 性 比 顺序 一 致 性 弱 -- 些 ， 但 它 的 实现 开销 也 小 一 些 。 不 过 ， 程 序 员 可 以 比较 容易 地 使 用 
它 的 语义 。 

释放 一 致 性 的 思想 是 : 通过 利用 程序 员 使 用 的 同步 对 象 (例如 信号 量 、 锁 和 屏蔽 等 ) 来 减少 
DSM 的 开销 。DSM 的 实现 可 以 利用 这 样 的 信息 ， 在 访问 这 些 对 象 时 允许 在 某 些 时 刻 系 统 内 存 存 在 
不 一 致 性 ， 不 过 因为 使 用 同步 对 象 ， 系 统 在 应 用 程序 层 仍然 可 以 保持 一 致 性 。 


18.4.1 内 存 访问 


为 了 理解 释放 一 致 性 (或 者 其 他 考虑 了 同步 的 内 存 模 型 ) ， 我 们 首先 根据 内 存 访 问 在 同步 中 的 
角色 对 其 进行 分 类 。 此 外 ， 我 们 还 将 讨论 为 了 获得 较 好 的 性 能 如 何 异 步 进 行内 存 访问 ， 我 们 还 将 
给 出 一 个 简单 的 操作 模型 ， 说 明 内 存 访 问 是 如 何 生 效 的 。 

正如 我 们 在 前 面 提 到 的 ， 在 通用 分 布 式 系 统 上 实现 的 DSM 可 以 使 用 消息 传递 而 不 是 共享 变量 
来 实现 同步 ， 这 是 基于 效率 方面 的 考虑 。 但 是 ， 了 解 基 于 共享 变量 的 同步 将 有 助 于 理解 后 面 介 绍 
的 内 容 。 下 面 的 伪 码 用 变量 上 的 testAndSet 操 作 实现 了 锁 。 testAndSet 函 数 将 lock 值 置 为 !1， 并 且 在 
lock 值 为 0 时 返回 0，lock 值 是 1 时 返回 1。 它 以 原子 操作 方式 来 执行 这 一 操作 。 


acquire LOcKfvar int lock): // 锁 通过 引用 传递 
while(testAndSet(lock)=1) 
skip; 
releaseLock(var int lock): // 锁 通过 引用 传递 
lock:=0; 


内 存 访 问 的 类 型 ”内 存 访问 主要 分 为 两 类 ， 竞 争 性 访问 和 非 竞 争 性 (常规 ) 访问 。 当 如 下 情况 
发 生 时 ， 两 个 访问 是 竞争 性 访问 : 

。 它们 是 同时 发 生 的 (它们 之 间 没 有 强制 的 顺序 ) 。 

* 至少 有 一 个 访问 是 write 访问 。 

所 以 两 个 read 操 作 是 不 会 竞争 的 。 两 个 进程 对 同一 内 存 位 置 进行 的 读 访问 和 写 访 问 ， 如 果 它 们 
之 间 有 同步 机 制 ( 因 此 会 对 它们 进行 排序 )， 那 么 它们 也 不 是 竞争 的 。 

我 们 可 以 将 竞争 性 访问 细 分 为 同步 访问 和 非 同 步 访 问 两 种 类 型 ， 

“ 同步 访问 是 指 那些 与 同步 有 关 的 write 或 read 操 作 。 

“ 非 同步 性 的 访问 是 指 那些 并 发 但 与 同步 无 关 的 read 或 write 操作 。 

在 (上 面 的 ) releaseLock 中 ， 由 lock:=0 隐 含 的 write 操作 是 同步 访问 。 在 testAndSet 中 隐 含 的 read 
操作 也 是 同步 访问 。 

同步 访问 是 竞争 性 的 ， 这 是 因为 同步 进程 必须 能 够 并 发 访问 这 些 同步 变量 ， 并 且 它 们 会 更 新 
这 些 变 量 ， 只 使 用 read 操 作 不 可 能 实现 同步 。 但 并 不 是 所 有 的 竞争 性 访问 都 是 同步 访问 一 一 使 用 某 
些 并 行 算法 的 进程 ， 它们 对 共享 变量 进行 竞争 性 的 访问 只 是 为 了 更 新 和 读 取 另 一 个 进程 记录 的 结 
果 ， 但 它们 不 是 同步 的 。 
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同步 访问 又 可 以 根据 访问 的 作用 是 阻塞 进行 访问 的 进程 还 是 让 一 些 其 他 进程 进行 访问 而 进 一 
步 分 为 获得 访问 和 释放 访问 。 

执行 异步 操作 ”我们 发 现 ， 在 顺序 一 致 DSM 的 实现 中 ， 内 存 操作 可 能 发 生 明显 的 延迟 。 尽 管 
有 延迟 ， 系 统 仍 可 采用 多 种 形式 的 异步 操作 来 提高 进程 执行 的 效率 。 首 先 ， 写 操作 可 以 异步 实现 。 
在 写 操作 的 结果 被 传播 ， 并 且 其 他 进程 得 到 写 操作 的 效果 之 前 ， 它 的 值 可 以 被 放置 在 缓冲 区 内 。 
其 次 ，DSM 系 统 可 以 通过 数据 预 取 ， 即 预先 存储 可 能 将 要 被 访问 的 数据 ， 以 减少 数据 访问 的 延迟 。 
最 后 ， 处 理 器 可 以 不 按照 规定 的 顺序 执行 指令 。 它 们 可 以 在 等 待 当前 内 存 访问 完成 的 时 候 就 执行 
下 一 条 指令 ， 只 要 下 一 条 指令 不 能 依赖 于 当前 指令 即 可 。 

就 我 们 所 列 出 的 异步 操作 而 言 ， 我 们 将 区 分 read 或 write 操作 发 生 的 时 间 点 〈 当 进程 开始 执行 
操作 的 时 刻 ) 和 指令 被 执行 完 或 完成 的 时 间 点 。 

我 们 假设 DSM 系 统 至 少 是 连贯 的 。 正 如 18.2.3 节 介绍 的 ， 这 意味 着 在 同一 位 置 上 每 个 进程 就 写 
操作 的 顺序 达成 了 一 致 。 在 这 一 假设 下 ， 我 们 可 以 在 给 定 的 位 置 上 明确 地 给 出 write 操作 的 顺序 。 

在 分 步 式 共享 内 存 系统 中 ， 我 们 可 以 为 进程 P 执 行 的 内 存 操作 o 画 出 时 间 线 ( 见 图 18-11)。 

我 们 称 一 个 进程 P 执 行 了 一 个 write 操作 WCOv， 如 果 在 该 操作 后 ， 进 程 P 的 read 操 作 会 返回 值 v， 这 个 


值 是 由 ?2 的 write 操作 写 入 的 ， 或 者 返回 由 后 续 的 相对 于 P"，o 在 时 刻 被 执行 
操作 对 x 写 入 的 值 (其 他 操作 可 能 也 会 写 入 同样 十 一 一 一 一 一 一 一 一 一 一 J] 一 一 * 实际 时 间 
的 值 v)。 P 发 出 o o 执 行 完毕 

类 似 地 ， 我 们 称 进程 P 执 行 一 个 read 操 作 图 18-11 执行 DSM 读 或 写 操作 的 时 间 线 


R(x)v， 如 果 没 有 后 续 的 write 操 作 将 x 的 值 写 为 x。 例 如 ，P 可 能 领取 了 它 所 需要 读 出 的 值 。 
最 后 ， 如 果 所 有 进程 都 完成 了 操作 o， 则 称 操作 o 完 成 了 。 


18.4.2 释放 一 致 性 

我 们 希望 满足 的 系统 需求 包括 : 

。 保 持 对 象 ( 如 锁 和 屏蔽 等 ) 的 同步 语义 。 

* 为 了 获得 较 好 的 性 能 ， 我 们 允许 内 存 操作 存在 一 定 程度 的 异步 性 。 

。 为 了 保证 执行 能 提供 与 顺序 一 致 性 等 价 的 一 臻 性， 限制 在 内 存 访问 之 间 的 重 又 。 

为 此 ， 人 们 设计 出 释放 -一致 性 模型 来 满足 上 述 需 求 。Gharachorloo 等 [1990] 是 这 样 定义 释放 一 
致 性 的 : 

RC1: 在 允许 其 他 进程 执行 普通 的 读 或 写 操作 前 ， 以 前 获得 的 所 有 访问 必须 完成 执行 。 

RC2: 在 允许 其 他 进程 执行 release 操 作 前 ， 以 前 所 有 的 普通 read 和 write 操作 必须 执行 完成 。 

RC3 ， 就 acquire 和 release 操 作 而 言 ， 两 者 必须 是 顺序 一 致 的 。 

RC1 和 RC2 保 证 了 当 释 放 操 作 发 生 时 ， 其 他 获得 锁 的 进程 不 能 读 那 些 由 执行 释放 的 进程 所 更 新 
的 旧版 本 数据 。 这 种 方式 和 程序 员 所 希望 的 释放 锁 的 方式 一 致 ， 例 如 ， 标 明 进 程 已 经 结束 对 临界 
区 中 的 数据 进行 修改 的 操作 。 . 

如 果 DSM 系 统 知道 有 哪些 同步 访问 ， 那 么 它 能 增强 释放 一 致 性 保证 。 例 如 ， 在 Munin 系 统 中 ， 
程序 员 只 能 使 用 Munin 系 统 自己 的 acquireLock、releaseLock 和 waitAtBarrier 原 语 。( 屏 项 是 一 种 同步 
对 象 ， 它 阻塞 住 一 个 进程 集合 中 的 所 有 进程 ， 直 到 所 有 的 进程 都 等 待 它 ， 然 后 ， 所 有 的 进程 继续 执 
行 。) 程序 必须 使 用 同步 来 保证 其 他 进程 都 可 及 时 获得 更 新 的 结果 。 如 果 DSM 的 实现 只 使 用 上 面 所 
给 出 的 单一 保证 ， 那 么 共享 DSM 但 不 使 用 同步 对 象 的 两 个 进程 可 能 永远 不 能 获得 对 方 的 更 新 结果 。 

请 注意 ， 释 放 一 致 性 模型 允许 实现 采用 某 些 异 步 操作 。 例 如 ， 当 一 个 进程 在 一 个 临界 区 内 执 
行 更 新 时 ， 进 程 没 有 必要 阻塞 它 。 同 时 ， 在 它 用 释放 锁 的 方式 离开 临界 区 以 前 ， 也 没有 必要 传播 
它 的 更 新 。 另 外 ， 多 个 更 新 可 以 被 收集 在 一 起 ， 通 过 一 个 消息 来 传递 该 更 新 结果 。 这 时 ， 只 需要 
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发 送 最 后 一 个 对 数据 项 的 更 新 。 
考虑 图 18-12 中 的 进程 ， 它 们 为 了 访问 变量 a 和 b (a 和 b 的 初始 值 都 为 0) 而 获得 和 释放 锁 。 进 程 
1 在 互 斥 的 情况 下 更 新 a 和 b， 进 程 2 不 能 在 进程 1 





进行 写 操作 时 则 时 读 取 a 和 b 的 值 ， 所 以 会 发 现 | 进程 上 


acquireLock(): // 进 入 临界 区 
a=b=0 或 a=b=1。 人 临界 区 保证 了 应 用 程序 层 的 a l 
一 致 性 ， 即 a 等 于 b。 系 统 没有 必要 立即 传播 在 临 bp:=b+l; 
界 区 内 变量 的 更 新 。 如 果 进 程 2 在 临界 区 外 试图 0 /离开 临界 区 
访问 a， 它 会 获得 一 个 过 期 的 值 。 对 应 用 程序 的 eg /入 用 办 区 
编写 者 来 说 ， 这 是 一 个 问题 。 print ("The values of a and b are: ", a, b); 


假设 进程 1 首先 获得 锁 ， 那 么 进程 2 会 被 阻 releaseLockl); /离开 临界 区 
塞 ， 并 且 它 不 会 引起 与 DSM 相 关 的 任意 活动 ， 一 一 
直到 它 获得 锁 并 试图 访问 a 和 b 为 止 。 如 果 两 个 进 “图 18-12 在 释放 一 至 的 DSM 上 执行 的 进程 
程 对 具有 顺序 一 致 性 的 内 存 进行 操作 ， 那 么 当 进程 1 更 新 a 和 b 时 ， 进 程 1 将 会 被 阻塞 。 在 写 更 新 协 
议 中 ， 直 到 所 有 版 本 的 数据 被 更 新 后 ， 系 统 才能 解除 对 它 的 阻塞 ， 在 写 失效 协议 中 ， 它 将 被 阻 守 
到 所 有 数据 拷贝 失效 为 止 。 

在 释放 一 致 性 条 件 下 ， 当 进程 1 访问 和 b 时 ， 进 程 1 将 不 会 被 阻塞 。DSM 运 行 时 系统 知道 这 些 数 
据 被 更 新 了 ， 但 是 它 没 有 必要 立即 采取 进一步 的 行动 。 仅 当 进程 1 释放 了 锁 之 后 ， 系 统 才 需 要 通信 。 
在 写 更 新 协议 中 ， 系 统 需要 传播 对 a 和 b 的 更 新 ， 在 写 失效 协议 中 ， 系 统 需要 发 送 失 效 消息 。 

程序 员 (或 编译 器 负责 将 读 和 写 操作 标记 为 大 放 、 获 得 和 非 同 步 访问 一 其 他 指令 被 认为 是 
普通 操作 。 这 些 访问 操作 的 标记 将 指导 DSM 系 统 执行 释放 一 致 性 条 件 。 

Gharachorloo 等 [1990] 描 述 了 适当 标记 程序 的 宏 念 。 他 们 证 明 这 样 的 一 个 程序 在 释放 -至 性 
DSM 上 和 在 顺序 一 致 性 DSM 上 没有 区 别 。 


18.4.3 Munin 


Munin DSM 系 统 [Carter et al, 1991] 试 图 通过 实现 释放 一 致 性 模型 来 提高 DSM 的 效率 。 此 外 ， 
Munin 系 统 允 许 程 序 员 根 据 数据 项 被 共享 的 方式 来 标记 数据 项 ， 这 样 系统 可 以 对 维护 一 致 性 的 更 新 
选项 进行 一 些 优化 。Munin 在 V 内 核 [Cheriton and Zwaenepoel 1985] 上 实现 ， 这 个 系统 是 首先 允许 
用 户 级 进程 来 处 理 页 失 配 并 操作 页 表 的 内 核 系 统 之 一 。 

下 面 是 Munin 系 统 实现 释放 一 致 性 的 几 个 关键 点 : 

。 当 锁 被 释放 时 ，Munin 系 统 立即 发 送 更 新 或 失效 信息 。 

* 程序 员 可 以 注 明 锁 与 数据 项 之 间 的 关联 。 在 这 种 情况 下 ，DSM 运 行 时 系统 可 以 利用 将 锁 传 输 

给 等 待 进程 的 信息 来 传播 相关 的 更 新 一 一 假设 锁 的 接收 进程 在 访问 数据 前 就 拥有 这 一 数据 的 

拷贝 。 

相对 于 Munin 在 锁 释 放 时 就 及 时 发 送 更 新 和 失效 消息 的 及 时 方法 ，Keleher 等 [1992] 描 述 了 另 一 
种 方法 。 这 种 惰性 方法 仅 当下 一 次 获得 锁 时 才 进 行 消息 传播 。 此 外 ， 它 只 将 这 些 信息 发 送 给 那些 
需要 获得 锁 的 进程 ， 这 一 信息 是 搭载 在 授予 锁 的 信息 中 一 起 传送 的 。 在 其 他 进程 获得 锁 以 前 ， 没 
有 必要 让 这 些 进 程 知道 更 新 结果 。 

共享 注解 ”Munin 实 现 了 多 种 -- 致 性 协议 ， 它 们 可 以 应 用 在 不 同 粒度 的 数据 项 上 。 这 些 协议 的 
参数 根据 如 下 选项 确定 : 

。 使 用 写 更 新 协议 还 是 使 用 写 失效 协议 。 

。 是 否 允 许多 个 可 修改 的 数据 项 副本 同时 存在 。 

。 是 否 延 迟 更 新 或 失效 操作 (例如 ， 在 释放 一 致 性 模型 中 )。 
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。 是 否 允 许 数据 项 有 固定 的 拥有 者 (所 有 的 更 新 操作 都 被 发 送 到 这 一 拥有 者 上 )。 
。 是 否 允 许多 个 写 进程 并 发 修改 同一 数据 项 。 
。 是 否 允 许 数据 项 被 固定 的 进程 集 共享 。 
。 是 否 允 许 数据 项 被 修改 。 
系统 管理 者 可 以 根据 数据 项 的 特性 和 进程 共享 数据 项 的 模式 来 选择 这 些 选项 。 程 序 员 也 可 以 
针对 每 个 数据 项 选择 使 用 什么 参数 。 然 而 ，Munin 系 统 为 程序 员 提 供 了 一 个 标准 的 注解 集 ， 这 些 注 
解 可 以 应 用 在 数据 项 上 ， 每 -- 个 注解 对 应 一 组 对 以 上 选项 的 参数 选择 ， 这 - -注解 集 适 合 于 不 同 的 
应 用 程序 和 数据 项 。 这 个 注解 集 包括 如 下 注解 : 
。 只 读 : 数据 项 在 初始 化 之 后 就 不 能 被 更 新 ， 但 它 可 以 被 自由 拷贝 。 
。 挝 攀 : 进程 通常 轮流 访问 数据 项 ， 其 中 至 少 有 一 个 访问 是 更 新 操作 。 例 如 ， 进 程 在 临界 区 内 
访问 数据 项 。Munin 系 统 对 这 样 的 对 象 同 时 进行 读 和 写 访问 ， 甚 至 当 进程 发 生 一 个 读 失 配 时 
也 是 如 此 。 这 样 可 以 节省 后 面 的 写 失 配 处 理 。 
。 写 共享 ;多 个 进程 对 同一 数据 项 进行 并 发 更 新 〈 例 如， 一 个 数组 )， 但 是 这 一 注解 表示 程序 员 
已 说 明 进 程 不 会 同时 对 这 一 数据 项 的 同一 部 分 进行 更 新 。 这 就 意味 着 Munin 系 统 可 以 避免 错 
误 共 享 ， 而 只 传播 那些 被 每 个 进程 实际 更 新 的 部 分 。 为 了 做 到 这 一 点 ，Munin 系 统 (而 不 是 
写 失 配 处 理 程序 ) 在 执行 本 地 更 新 前 拷贝 该 页 。 在 更 新 后 ， 系 统 只 传递 两 个 版 本 的 差异 信息 。 
。 生 产 者 -消费 者 : 数据 对 象 被 国定 的 进程 集 共 享 ， 其 中 只 有 -- 个 进程 对 数据 对 象 进行 更 新 。 
正如 前 面 我 们 在 介绍 系统 苏 徐 时 所 提 到 的 ， 写 更 新 协议 最 适合 这 种 情况 。 此 外 ， 在 释放 一 至 
性 模型 下 ， 假 设 进程 使 用 锁 来 同步 数据 访问 ， 那 么 更 新 可 能 被 延迟 。 
“ 缩影 : 数据 项 通过 加 锁 、 读 、 更 新 和 解锁 而 被 修改 。 其 中 一 个 例子 是 ， 并 行 计 算 的 一 个 全 局 
缩影 ， 如 果 它 比 局 部 缩影 大 ， 那 么 它 必须 以 原子 方式 获得 和 修改 数据 。 这 些 数 据 项 存储 在 一 
个 固定 的 拥有 者 上 。 数 据 更 新 被 传送 到 拥有 者 上 ， 它 负责 向 其 他 进程 传播 此 更 新 。 
。 结 果 : 系统 中 有 多 个 进程 更 新 一 个 数据 项 的 不 同 部 分 ， 一 个 进程 读 整个 数据 项 。 例 如 ， 不 同 
的 “工作 者 ”进程 可 能 负责 填充 数组 的 各 个 元 素 ， 由 一 个 “管理 者 ”进程 处 理 这 一 数组 。 要 
指出 的 一 点 是 ， 更 新 只 需 发 送 到 管理 者 进程 上 ， 而 没有 必要 发 送 到 工作 者 进程 上 ( 它 可 能 在 
上 面 描述 的 “ 写 共 享 ”注解 的 情况 中 发 生 )。 
。 常 规 型 : 数据 项 由 和 前 面 所 描述 的 失效 协议 相似 的 协议 管理 。 因 此 ， 进 程 不 会 读 到 数据 项 
的 过 期 版 本 。 
Carter 等 [1991] 详 细 介 绍 了 对 应 于 以 上 注解 的 参数 选项 。 这 一 注解 集 并 不 是 固定 的 。 当 需要 与 
之 不 同 的 选项 参数 设置 时 ， 其 他 人 也 可 以 生成 新 的 注解 。 


18.5 其 他 一 致 性 模型 


内 存 一 致 性 模型 可 以 被 划分 为 两 类 : 统一 型 模型 和 混合 型 模型 。 统 一 型 模型 不 区 分 内 存 访问 
的 类 型 ， 而 混合 型 模型 区 分 普通 访问 和 同步 访问 (以 及 其 他 的 访问 类 型 )。 

一 些 统一 型 模型 的 一 致 性 比 顺序 一 致 性 弱 一 些 。 我 们 在 18.2.3 节 介绍 了 连贯 性 ， 连 贯 性 是 指 在 
每 一 个 位 置 上 都 是 顺序 一 致 的 。 进 程 在 同一 位 置 上 执行 写 操作 的 顺序 是 一 致 的 ， 但 是 在 不 同位 置 
对 不 同 进程 执行 写 操作 的 顺序 可 能 不 一 致 [Goodman 1989,Gharachorloo et al. 1990]。 

其 他 统一 型 一 致 性 模型 包括 : 

* 因果 一 致 性 : 在 读 和 写 操作 之 间 可 能 存在 发 生 在 先 关系 ( 见 第 11 章 )。 当 内 存 操作 是 以 下 几 种 

情况 之 一 时 ， 它 们 之 间 就 存在 这 种 关系 。 这 几 种 情况 是 ， (1) 它们 是 同一 进程 执行 的 操作 ，(2) 

一 个 进程 读 另 一 个 进程 写 人 的 数值 ，(3) 存 在 着 用 于 连接 两 个 操作 的 操作 序列 。 这 个 模型 的 约 

束 是 ， 一 个 读 操作 的 返回 值 必须 与 发 生 在 先 关系 一 致 。Hutto 和 Ahamad[1990] 描 述 了 这 一 模型 。 
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。 处 理 器 一 致 性 : 内 存 是 连贯 的 ， 并 且 符 合 管道 RAM 模 型 (下 面 将 介绍 )。 简 单 地 说 ， 处 理 器 
一 致 性 就 指 是 内 存 是 连贯 的 ， 并 且 所 有 进程 的 执行 顺序 和 同一 进程 执行 的 任意 两 个 写 访 问 的 
顺序 一 致 。 也 就 是 说 ， 它 们 符合 程序 的 顺序 。Goodman[1989] 首 先 非 形式 化 地 定义 了 这 一 模 
型 ， 后 来 Gharachorloo 等 [1990] 和 Ahamad 等 [1992] 形 式 化 地 定义 了 这 一 模型 。 

。 管 道 RAM: 所 有 处 理 器 处 理 操作 的 顺序 和 任意 给 定 的 一 个 处 理 器 发 出 写 操作 的 顺序 一 致 
[Lipton 和 Sandberg 1988]。 

除了 释放 一 致 性 之 外 ， 混 合 型 模型 还 包括 : 

"变量 项 一 致 性 : 变量 项 一 致 性 是 为 Midway DSM 系 统 设计 的 [Bershad et al. 1993]。 在 这 一 模 
型 中 , 每 一 个 共享 变量 都 和 一 个 像 锁 这 样 的 同步 对 象 绑 定 , 这 些 同步 对 象 管理 对 变量 的 访问 。 
系统 保证 首先 获得 锁 的 进程 读 到 数据 最 新 的 值 。 写 变量 的 进程 必须 首先 以 “ 互 斥 ” 的 方式 获 
得 相应 的 锁 ， 这 样 使 其 成 为 唯一 能 对 变量 操作 的 进程 。 通 过 以 非 互 斥 的 形式 来 共同 拥有 锁 ， 
多 个 进程 可 以 并 发 地 读 变量 。Midway 系 统 避免 了 释放 一 致 性 中 的 错误 共享 ， 但 是 它 增加 了 
编程 的 复杂 性 。 

“范围 一 致 性 : 这 种 内 存 一 致 性 模型 [Iftode et al. 1996] 试 图 简化 变量 项 一 致 性 的 编程 模型 。 在 
范围 一 致 性 中 ， 变 量 可 以 自动 地 与 同步 对 象 关联 起 来 ， 而 不 是 需要 程序 员 来 将 锁 和 变量 显 式 
地 关联 起 来 。 例 如 ， 系 统 可 以 管理 在 临界 区 内 更 新 的 变量 。 

“有 缠 一 致 性 : 弱 一 致 性 [Dubois et al. 1988] 不 区 分 获得 和 释放 同步 访问 。 它 的 保证 之 一 是 以 前 
所 有 的 普通 操作 在 任意 类 型 的 同步 操作 之 前 完成 。 

讨论 ”释放 一 致 性 和 其 他 的 一 致 性 模型 比 顺序 一 致 性 模型 弱 ， 它 们 似乎 更 适合 于 DSM。 在 释 
放 一 致 性 模型 中 ，DSM 运 行 时 系统 必须 知道 同步 操作 ， 但 是 这 并 不 是 重大 的 缺点 一 -只 要 系统 能 
提供 足够 的 选项 满足 程序 员 的 需要 。 

在 混合 型 模型 中 ， 只 要 程序 员 适当 地 同步 他 们 的 数据 访问 ， 他 们 就 不 必 考 虚 某 种 内 存 一 致 性 
语义 ,认识 到 这 一 点 很 重要 。 但 是 ， 在 DSM 的 设计 中 ， 为 了 使 程序 高 效 地 执行 ， 要 求 程序 员 在 程 
序 中 加 入 很 多 注解 是 很 危险 的 。 这 些 注 解 包括 使 用 同步 对 象 标明 数据 项 的 注解 和 那些 像 在 Munin 系 
统 中 共享 的 注解 。 基 于 消息 传递 的 共享 内 存 编程 的 优点 之 一 是 它 的 开销 相对 小 一 些 。 


18.6 小 结 


本 章 介绍 了 分 布 式 共 享 内 存 的 概念 ， 我 们 将 其 看 作 在 分 布 式 系统 中 共享 内 存 的 一 种 抽象 ， 它 
是 替代 基于 消息 通信 的 一 种 方法 。DSM 主 要 应 用 于 并 行 处 理 和 数据 共享 。 在 某 些 并 行 应 用 程序 中 ， 
它 的 执行 效果 和 消息 传递 机 制 一 样 好 ， 但 是 高 效 实现 它 是 很 难 的 ， 并 且 它 的 性 能 随 应 用 程序 的 不 
同 变化 很 大 。 

本 章 主要 介绍 DSM 的 软件 实现 ， 特 别 是 那些 使 用 虚拟 内 存 子 系统 的 软件 实现 。 不 过 ， 目 痛 
DSM 已 经 在 硬件 支持 的 基础 上 实现 了 。 

DSM 最 主要 的 设计 和 实现 问题 包括 ， DSM 结 构 、 应 用 程序 实现 同步 的 方法 、 内 存 一 致 性 模型 、 
使 用 写 更 新 协议 还 是 写 失效 协议 、 共 享 的 粒度 以 及 系统 颠 篮 。 

DSM 的 结构 包括 如 下 几 种 形式 : 字 节 序列 、 共 享 对 象 的 集合 或 者 是 一 些 像 元 组 这 样 的 不 变数 
据 的 集合 。 

为 了 满足 与 应 用 程序 相关 的 一 致 性 约束 ， 使 用 DSM 的 应 用 程序 需要 实现 同步 。 它 们 使 用 锁 这 
样 的 对 象 来 满足 这 样 的 要 求 ， 为 了 获得 较 好 的 效率 ， 它 们 使 用 消息 传递 机 制 来 实现 。 

在 DSM 系 统 中 最 常见 的 严格 内 存 一 致 性 是 顺序 一 致 性 。 但 因为 它 的 开销 比较 大 ， 人 们 设计 出 
了 几 种 弱 一 些 的 一 致 性 模型 ， 例 如 连贯 性 和 释放 一 致 性 。 释 放 一 致 性 使 DSM 的 实现 可 以 在 不 破坏 
应 用 程序 层 的 一 致 性 的 约束 下 来 使 用 同步 对 象 以 获得 更 好 的 效率 。 本 章 还 列 出 了 其 他 一 致 性 模型 ， 
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其 中 包括 变量 项 、 范 围 和 弦 一 臻 性， 它们 都 利用 同步 来 实现 应 用 层 一 致 性 。 

写 更 新 协议 在 数据 项 被 修改 时 将 更 新 信息 传递 到 它 所 有 的 数据 拷贝 上 。 尽 管 这 些 协议 也 有 用 
全 排序 组 播 实现 的 ， 但 通常 还 是 使 用 硬件 来 实现 的 。 写 失效 协议 在 数据 项 被 更 新 时 ， 通 过 使 数据 
拷贝 失效 来 阻止 进程 读 到 过 期 的 数据 。 它 非常 适合 于 基于 分 页 的 DSM 系 统 ， 因 为 在 这 种 系统 中 使 
用 写 更 新 协议 的 系统 开销 比较 大 。 

DSM 的 粒度 会 影响 进程 竞争 的 可 能 性 ， 因 为 这 些 进程 访问 的 内 容 可 能 包含 在 同一 共享 单元 中 
(例如 页 )， 所 以 有 可 能 错误 地 共享 数据 ， 从 而 引起 进程 竞争 。 粒 度 也 会 影响 在 计算 机 之 间 传 输 一 
个 字 节 的 更 新 所 需 的 开销 。 

当 系统 使 用 写 失 效 协 议 时 ， 可 能 会 发 生 系统 颠 繁 。 系 统 颠 繁 是 指 在 竞争 进程 之 间 重 复 地 传递 
数据 ， 妨 碍 程序 的 执行 。 用 程序 层 的 同步 ， 通 过 允许 计算 机 在 一 小 段 时 间 内 保留 页 ， 或 者 通过 标 
记 数 据 项 使 系统 同时 批准 读 写 访问 ， 都 可 以 减少 系统 颠 篮 。 

本 章 还 描述 了 Ivy 系 统 的 应 用 于 分 页 的 DSM 的 三 个 主要 写 失 效 协 议 ， 它 们 用 于 处 理 管理 拷贝 集 
和 定位 页 拥有 者 问题 。 这 三 个 协议 是 : 中 央 管 理 器 协议 (使 用 单个 进程 来 存储 每 一 页 的 当前 拥有 
者 信息 )， 使 用 组 播 来 定位 页 的 当前 拥有 者 的 协议 以 及 动态 分 布 式 管理 器 协议 使 用 向 前 的 指针 来 
定位 页 的 当前 拥有 者 ) 。 

Munin 系 统 是 实现 释放 一 致 性 的 一 个 实例 。 在 锁 被 释放 时 ， 它 就 发 送 更 新 信息 或 失效 信息 ， 从 
而 实现 了 及 时 的 释放 一 致 性 。 另 外， 也 存在 惰性 释放 一 致 性 的 实现 ， 情 性 方法 仅 在 需要 的 时 候 才 
传播 这 些 信 息 。Munin 系 统 允 许 程 序 员 为 他 们 的 数据 项 加 上 注解 ， 这 样 可 以 在 指定 共享 方式 的 情况 
下 选择 那些 最 适合 这 些 数 据 项 的 协议 选项 。 


练习 
18.1 请 说 明 在 哪些 方面 DSM 适 合 于 客户 -服务 器 系统 ， 在 哪些 方面 不 适合 该 系统 。 ”( 第 750 页 ) 
18.2 请 讨论 是 消息 传递 机 制 还 是 DSM 更 适合 容错 应 用 程序 呢 。 (第 751 页 ) 


18.3 在 异 构 的 计算 机 系统 上 可 以 使 用 中 间 件 来 实现 DSM， 那 么 应 如 何 解 决 不 同 的 数据 表示 问题 ? 
如 果 是 在 基于 分 页 的 DSM 实 现 上 ， 你 又 如 何 解决 这 一 问题 ?你 的 解决 方法 涉及 指针 了 吗 ? 


(第 753 页 ) 
18.4 为 什么 我 们 需要 在 用 户 级 实现 基于 分 页 的 DSM 系 统 ， 实 现 它 需 要 些 什么 ? (第 754 页 ) 
18.5 你 将 怎样 使 用 元 组 空间 来 实现 一 个 信号 量 ? (第 755 页 ) 


18.6 下 列 两 个 进程 的 顺序 执行 后 ， 内 存 是 否 保持 顺序 一 致 性 (假设 初始 时 所 有 的 变量 值 为 0) ? 
Pi R(X)1;R(x)2;W(y)1 


P;: WOOLR(Y) ;W(x)2 (第 759 页 ) 
18.7 使 用 RO 和 W0 的 标记 方法 ， 设 计 一 个 是 连贯 的 但 不 是 顺序 一 致 的 内 存 执行 的 例子 。 可 能 出 
现 内 存 是 顺序 一 致 的 但 不 是 连贯 的 这 种 情况 吗 ? (第 759 页 ) 


18.8 在 写 更 新 中 ， 如 果 每 个 更 新 都 在 异步 传播 到 达 其 他 副本 管理 器 前 就 在 本 地 拷贝 上 执行 了 ， 
甚至 组 播 是 全 排序 的 ， 系 统 也 可 能 不 符合 顺序 一 致 性 。 请 讨论 异步 组 播 是 否 可 以 用 来 实现 


顺序 一 致 性 。( 提 示 : 考虑 是 否 要 阻塞 后 续 的 操作 。) (第 760 页 ) 
18.9 使 用 采用 了 一 个 异步 的 、 全 排序 的 组 播 的 写 更 新 协议 可 以 实现 顺序 一 致 性 内 存 。 请 讨论 实 
现 连 贯 的 内 存 对 组 播 的 排序 有 哪些 需求 。 (第 760 页 ) 


18.10 请 解释 为 什么 在 写 更 新 协议 中 只 需要 传播 那些 被 本 地 更 新 的 数据 项 。 
设计 一 个 算法 ， 用 于 表示 一 个 页 在 更 新 前 和 更 新 后 的 差异 。 讨 论 该 算法 的 性 能 。 (第 760 页 ) 
18.11 请 解释 为 什么 在 DSM 系 统 中 粒度 是 一 个 重要 的 问题 。 请 比较 在 面向 对 象 和 面向 字 节 的 DSM 
系统 中 的 粒度 问题 ， 注 意 考虑 它们 的 实现 问题 。 
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为 什么 粒度 和 包含 不 变数 据 的 元 组 空间 相关 ? 


什么 是 错误 共享 ? 它 能 导致 不 正确 的 执行 吗 ? (第 762 页 ) 
18.12 DSM 的 页 赫 换 策略 高 意 着 什么 (也 就 是 说 ， 为 了 引入 一 个 新 页 ， 选 择 哪 一 页 被 淘汰 )? 
(第 763 页 ) 
18.13 请 证 明 Ivy 系 统 的 写 失 效 协议 保证 了 顺序 一 致 性 。 (第 765 页 ) 
18.14 在 My 系统 和 动态 分 布 信 管理 器 算法 中 ， 为 了 将 找到 一 个 页 所 需 进行 查找 的 次 数 降 到 最 低 ， 
采取 了 哪些 步骤 ? (第 768 页 ) 
18.15 为 什么 说 在 DSM 系 统 中 ， 未 统 类 姜 是 一 个 重要 的 问题 ? 有 哪些 方法 可 以 解决 这 一 问题 ? 
(第 771 页 ) 


18.16 请 讨论 释放 一 致 性 的 条 件 RC2 是 如 何 放宽 的 。 如 何 区 分 及 时 和 情 性 的 释放 一 臻 性。 (第 774 页 ) 
18.17 一 个 传感器 进程 将 当前 的 漫 度 值 写 人 存储 在 释放 一 臻 DSM 系统 的 变量 t 中 。 一 个 监控 器 进程 
定期 读 取 t。 解 释 传 播 更 新 给 的 同步 需求 ， 包 括 那 些 在 应 用 程序 层 是 不 需要 的 需求 。 在 这 些 
进程 中 ， 由 谁 来 执行 同步 操作 ? (第 773 页 ) 
18.18 请 说 明 下 列 的 操作 不 符合 因果 一 致 性 : 
Pi: W(a)o; Wa)l 
Py: R(a)l; W(b)2 
P;: R(b)2; R(a)O (第 777 页 ) 
18.19 DSM 实 现 知道 数据 项 和 同步 对 象 之 间 的 关联 有 何 好 外 ?将 这 种 关联 显 式 表示 的 缺点 是 什么 ? 
(第 778 页 ) 
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第 19 章 ”Web 服务 


Web 服 务 提供 了 服务 接口 ， 使 客户 能 以 一 种 比 Web 浏 览 器 更 通用 的 方式 与 服务 器 进行 交互 。 客 
户 通过 在 HTTP 上 传输 的 XML 格式 的 请 求 和 应 答 访问 Web 服 务 接口 中 的 操作 。 可 以 通过 比 基 于 
CORBA 的 服务 更 自主 的 方式 访问 Web 服 务 ， 从 而 可 以 使 其 更 容易 被 因特网 范围 中 的 应 用 程序 使 用 。 

与 CORBA 和 Java 类 似 ，Web 服 务 的 接口 可 以 用 接口 定义 语言 (IDL) 描述 。 但 对 于 Web 服 务 ， 
还 需要 描述 其 他 信息 ， 包 括 所 用 的 编码 和 通信 协议 以 及 服务 位 置 等 。 

用 户 需要 以 安全 的 方式 创建 、 存 储 和 修改 文档 以 及 在 因特网 上 交换 文档 ，TLS 提 供 的 安全 通道 
并 不 能 满足 这 些 要求 ， 而 XML 安全 性 试图 解决 这 些 问题 。 

网 格 指 的 是 一 个 基于 Web 服 务 的 中 间 件 平台 ， 设 计 它 是 供 拥有 大 量 要 处 理 的 数据 资源 的 大 型 
分 散 用 户 群 体 来 使 用 的 。 天 文学 家 的 World-Wide Telescope 是 典型 的 用 于 科学 协作 的 网 格 应 用 程序 。 
从 对 World-Wide Telescope 的 研究 可 以 总 结 出 数据 密集 型 科学 应 用 的 特征 ， 从 这 些 特征 可 以 求 出 网 
格 架构 的 需求 集 。 


19.1 简介 


近 五 年 网 络 的 增长 ( 见 图 1-6) 证 明了 在 因特网 上 使 用 简单 协议 作为 大 量 广 域 服务 和 应 用 的 基 
础 是 有 效 的 。 特 别 是 HTTP 的 请 求 /应 答 协议 〈 见 4.4 节 ) 允许 通用 客户 调用 浏览 器 ， 通 过 URL 引 用 
查看 网 页 及 其 他 资源 。( 见 下 面 对 URI、URL 和 URN 的 注释 。) 

然而 ， 即 使 可 以 使 用 下 载 的 特定 于 应 用 程序 的 applet 增 强 ， 客 户 端的 通用 浏览 器 仍 限 制 了 应 用 
程序 潜在 的 使 用 范围 。 在 最 初 的 客户 一 服务 器 模型 中 ， 客 户 和 服务 器 从 功能 上 是 专门 化 的 。Web 服 
务 又 回 到 了 这 个 模型 ， 在 Web 服 务 中 ， 特 定 于 应 用 程序 的 客户 与 具有 特定 功能 接口 的 服务 在 因 特 
网 上 进行 交互 。 

因此 ，Wweb 服 务 提 供 了 基础 设施 来 维持 客户 和 服务 器 之 间 的 更 丰富 并 且 更 加 结构 化 的 互 操 作 
性 。Web 服 务 提供 了 一 个 基础 ， 使 得 一 个 组 织 中 的 客户 程序 可 以 在 无 人 监督 的 情况 下 与 另 一 个 组 
织 中 的 服务 器 交互 。 特 别 地 ，Web 服 务 允 许 通 过 提供 集成 了 几 个 其 他 服务 的 服务 来 开发 复杂 的 应 
用 程序 。 由 于 其 交互 的 通用 性 ，Web 服 务 不 能 直接 通过 浏览 器 访问 。 





URI、URL 和 URN 统一 资源 标识 符 (URI) 是 一 种 通用 资源 标识 符 ， 其 值 可 以 为 URL 或 URN。 
网 络 用 户 熟知 的 URL 包括 资源 定位 信息 ， 例 如 命名 资源 的 服务 器 的 域名 。 统 一 资源 名 称 (URN ) 
是 位 置 独立 的 ， 它 依赖 查找 服务 来 映射 到 资源 的 URL 。 有 关 URN 的 详细 信息 可 参见 9.1 节 。 





将 Web 服 务 附加 到 Web 服 务 器 是 以 使 用 HTTP 请 求 引发 程序 的 执行 的 能 力 为 基础 的 。 回 忆 一 下 ， 
当 HTTP 请 求 中 的 URL 指 向 一 个 可 执行 的 程序 ， 比 如 搜索 程序 ， 那 么 该 程序 将 生成 结果 并 将 其 返回 。 
与 此 类 似 ，Web 服 务 是 Web 的 扩展 ， 并 且 可 以 由 Web 服 务 器 (但 不 必须 是 Web 服 务 器 ) 提供 。 不 应 
该 混 清 术语 “Web 服 务 器 ”和 “Web 服 务 ”: Web 服 务 器 提供 基本 的 HTTP 服 务 ， 而 Web 服 务 提供 基 
于 在 接口 中 定义 的 操作 的 服务 。 

外 部 数据 表示 和 客户 与 Web 服 务 之 间 交 换 的 消息 的 编码 是 以 XML 的 形式 完成 的 ，4.3.3 节 中 已 
描述 过 XML。 简 言 之 ，XMEL 是 一 种 文本 表示 方式 ， 虽 然 比 其 他 表示 所 占 空 间 更 大 ， 但 由 于 其 可 读 
性 和 易于 调试 而 被 广泛 采用 。 
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SOAP 协 议 〈 见 19.2.1 节 ) 指定 了 使 用 XML 封 装 消息 (比如 支持 请 求 /应 答 协 议 的 消息 ) 的 规则 。 
图 19-1 总 结 了 Web 服 务 运作 的 通信 体系 结构 的 要 点 : Web 服 务 由 URI 定 义 ， 客 户 可 以 使 用 XML 






格式 的 消息 对 其 进行 访问 。SOAP 用 来 封装 消 pe = 
息 并 在 HTTP 或 其 他 协议 (如 TCP 或 SMTP) 上 0 
传送 这 些 消息 。Web 服 务 为 潜在 的 客户 部 署 服 Tt 





法 二 让 






务 描述 来 指定 接口 或 服务 的 其 他 方面 。 “Web 服务 -服务 描述 
图 19-1 的 第 一 层 说 明 : 外 ' 
.Web 服务 和 应 用 程序 可 以 构建 于 其 他 URN(OREORNO STTP， SNIE 肌 拓 国 和 本山 
WO Es 图 19-1 Web 服 务 基础 设施 和 组 件 
“一些 特定 的 Web 服 务 为 大 量 其 他 Web 服 
务 的 操作 提供 所 需要 的 通用 功能 ， 包 括 目录 服务 、 安 全 和 编排 ， 我 们 将 在 本 章 稍 后 部 分 讨论 
这 些 功能 。 

Web 服 务 一 般 提供 一 个 服务 档 述 ， 包 括 接口 定义 和 其 他 信息 ， 如 服务 器 的 URL。 服 务 描述 可 
作为 客户 和 服务 器 之 间 对 所 提供 的 服务 达成 共识 的 基础 。19.3 节 介绍 了 Web 服 务 描 述 语言 
(WSDL ) 。 

了 一 个 共同 需求 是 允许 客户 找到 服务 的 名 字 或 目录 服务 。Web 服 务 的 客户 也 有 类 似 
的 需求 ， 但 经 常 在 没有 目录 服务 的 情况 下 进行 管理 。 例 如 ， 它 们 经 常 从 网 页 上 的 信息 (例如 ， 从 
Google 的 搜索 结果 ) 中 查找 服务 。 然 而 ， 如 果 要 提供 适合 组 织 内 部 使 用 的 目录 服务 ， 还 需要 一 些 
进一步 的 工作 ， 这 些 内 容 将 在 19.4 节 中 讨论 。 

我 们 将 在 19.5 节 中 介绍 XML 安 全 性 。 在 这 种 达到 安全 性 的 方法 中 ， 可 以 对 文档 或 文档 的 部 分 
进行 签名 或 加 密 。 然 后 可 以 传输 或 存储 经 过 签名 或 加 窗 的 元 素 ， 之 后 可 以 生成 附加 信息 ， 而 这 个 
附加 信息 也 可 以 被 签名 或 加 密 。 

Web 服 务 可 以 使 远程 客户 访问 资源 ， 但 不 负责 协调 它们 之 间 的 相互 操作 。19.7 节 将 讨论 Web 服 
务 的 编排 ， 它 允许 Web 服 务 在 使 用 其 他 服务 集 时 ， 使 用 预定 义 的 访问 模式 。 

本 章 的 最 后 一 节 包 含 对 网 格 (一 个 基于 Web 服 务 的 应 用 程序 ) 的 实例 研究 。 网 格 是 一 个 基础 
设施 ， 用 于 提供 对 资源 (如 程序 、 文 件 、 数 据 、 计 算 机 、 传 感 器 和 网 络 ) 的 大 规模 共享 的 访问 。 
最 初创 建 Web 是 为 了 满足 不 同 站 点 的 物理 学 家 小 组 共享 实验 文档 的 需要 。 最 近 ， 科 学 家 需要 一 个 
在 因特网 中 的 更 通用 的 分 布 式 计算 环境 ， 网 格 概念 得 到 了 进一步 发 展 。 


19.2 Web 服 务 


Web 服 务 接口 通常 由 客户 可 以 在 因特网 上 使 用 的 操作 集合 组 成 。Web 服 务 中 的 操作 可 以 由 各 种 
不 同 的 资源 提供 ， 如 程序 、 对 象 或 数据 库 。Web 服 务 既 可 以 与 网 页 一 起 被 Web 服 务 器 管理 ， 也 可 以 
是 完全 独立 的 服务 。 

大 多 数 Web 服 务 的 关键 特征 是 可 以 处 理 XML 格 式 的 SOAP 消 息 ( 见 19.2.1 节 )， 另 一 种 替代 方法 
是 在 788 页 方 框 中 列 出 的 REST 方 法 。 每 个 Web 服 务 使 用 自 己 的 服务 描述 处 理 它 接收 到 的 消息 中 特 
定 于 服务 的 特征 。 有 关 Web 服 务 的 更 详细 的 介绍 见 Newcomer[2002] 。 

许多 知名 的 商业 网 络 服务 器 (包括 Amazon、Yahoo、Google 和 eBay) 提供 允许 客户 操纵 网 络 资 
源 的 Web 服 务 接口 。 例 如 ，Amazon.com 的 Web 服 务 提供 了 一 些 操作 ， 人 允许 客户 获取 商品 的 信息 ， 将 
某 项 商品 添加 到 购物 车 中 或 检查 交易 状态 。 Amazon 的 Web 服 务 [associates.amazon.com] 可 以 通过 SOAP 
( 见 19.2.1 节 ) 或 REST 访 问 。 这 可 以 使 第 三 方 应 用 程序 在 Amazon.com 提 供 的 服务 之 上 开发 增值 服务 。 
例如 ， 一 个 库存 控制 和 购买 应 用 程序 可 以 如 从 Amazon.com 订 购 一 样 订购 各 种 商品 的 供应 ， 并 自动 追 
踪 每 个 订单 的 状态 变化 。 自 从 引入 这 些 Web 服 务 后 ， 两 年 内 有 超过 50 000 的 开发 人 员 注 册 使 用 这 项 
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Web 服 务 [Greenfield and Dornan 2004] 。 

使 用 Web 服 务 的 应 用 程序 另 一 个 例子 是 实现 了 eBay 拍卖 中 称 为 “snipping” 的 应 用 程序 。 
snipping 的 意思 是 在 拍卖 结束 前 的 最 后 几 秒 钟 内 投标 。 虽 然 用 户 可 以 在 网 页 上 执行 相同 的 动作 ， 但 
却 不 一 定 那么 迅速 。 

Web 服 务 的 组 合 ”提供 的 服务 接口 允许 其 操作 与 其 他 服务 的 操作 组 合 来 提供 新 的 功能 。 实 际 
上 ， 上 面 提 到 的 购买 程序 可 能 也 使 用 其 他 供应 商 的 服务 。 另 一 个 体现 服务 组 合 优 点 的 例子 是 ， 考 
虑 到 人 们 目前 使 用 浏览 器 选择 不 同 网 站 订购 机 票 、 酒 店 和 租赁 汽车 ， 如 果 每 个 网 站 都 提供 标准 的 
Web 服 务 接口 ， 那 么 “旅行 代理 服务 ”可 以 使 用 它们 的 操作 为 旅行 者 提供 上 述 服务 的 一 个 组 合 ， 
如 图 19-2 所 示 。 





图 19-2 组 合 其 他 Web 服 务 的 “旅行 代理 服务 ” 


通信 模式 “旅行 代理 ”服务 阑 述 了 Web 服 务 中 可 以 使 用 的 两 种 可 以 替换 的 通信 模式 ， 
* 处 理 完成 预定 工作 需要 很 长 时 间 ， 这 可 以 通过 文档 的 异步 交换 获得 良好 的 支持 ， 处 理 时 从 日 
期 和 目的 地 的 详细 信息 开始 ， 然 后 是 不 时 返回 状态 信息 直至 返回 完成 信息 。 这 里 不 考虑 性 能 。 
* 信用卡 信息 的 检查 和 与 客户 的 交互 应 由 请 求 一 应 答 协议 支持 。 
一 般 来 说 ，Web 服 务 要 么 使 用 与 其 客户 通信 的 同步 请 求 - 应 答 模式 ， 要 么 通过 异步 消息 进行 通 
信 。 后 一 种 通信 方式 甚至 可 以 用 在 请 求 需要 应 答 时 ， 在 这 种 情况 下 ， 客 户 发 送 请 求 ， 然 后 异步 接 
收 应 答 。 此 外 ， 还 可 以 使 用 事件 方式 。 例 如 ， 目 录 服 务 的 客户 注册 其 感 兴趣 的 事件 ， 当 基 个 事件 
发 生 时 将 会 通知 客户 。 这 个 事件 可 能 是 某 个 服务 到 达 或 离开 。 
考虑 到 多 种 通信 模式 ，SOAP 协 议 ( 见 19.2.1 节 ) 基于 单 向 消息 的 封装 。 通 过 使 用 单 向 消息 对 
并 指定 如 何 表示 操作 、 操 作 的 参数 和 结果 来 支持 请 求 一 应 答 交 互 。 
没有 特定 的 编程 模型 ”Web 服务 是 为 在 使 用 多 种 不 同 的 编程 语言 的 因特网 环境 下 支持 分 布 式 计 
算 而 设计 的 ， 它 独立 于 任何 特定 的 编程 范 型 。 它 与 分 布 式 对 象 模型 的 主要 区 别 如 下 ， 
* 不 可 实例 化 远程 对 象 一 一 事实 上 ，Web 服 务 由 单个 远程 对 象 组 成 ， 因 此 
"不 存在 垃圾 收集 
* 不 存在 远程 对 象 引 用 
我 们 将 在 19.2.2 节 中 对 Web 服 务 与 分 布 式 对 象 进行 比较 。 REST 方 法 提倡 web 服务 应 具有 较 少 
786 的 接口 ， 如 后 面 的 REST 部 分 的 介绍 所 示 。 根据 GreenfieldO 和 Dornan[2004] 的 统计 ， 有 80% 对 
787| Amazon.com 上 Web 服 务 请 求 是 通过 REST 接 口 完 成 的 ， 其 余 的 20% 是 使 用 SOAP 完 成 的 。 
消息 表示 ”SOAP 及 其 携带 的 数据 都 是 用 4.3.2 节 介绍 的 XML 表示 的 ， XML 是 一 种 自 描 述 的 文 
本 格式 。 文 本 表示 比 二 进 制 表示 占用 的 空间 更 多 ， 也 需要 更 多 的 处 理 时 间 。 在 文档 方式 的 交互 中 
不 考虑 速度 的 问题 ， 但 在 请 求 -应 答 交 互 中 速度 却 十 分 重要 。 然 而 ， 使 用 可 读 的 格式 也 有 优势 ， 它 
可 以 很 容易 地 构造 简单 消息 并 调试 更 复杂 的 消息 ， 还 允许 用 户 在 此 之 前 查看 消息 中 的 文本 。 但 在 
某 些 情况 下 这 种 方式 的 速度 太 慢 。 
XML 描述 中 的 每 一 项 都 标注 了 其 类 型 ， 每 种 类 型 的 含义 由 描述 中 引用 的 模式 定义 。 这 使 得 格 
式 具 有 可 扩展 性 ， 可 以 传输 任何 类 型 的 数据 。 关 于 XML 格式 文档 的 潜在 丰富 性 和 复杂 性 并 没有 限 
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制 ， 但 在 解释 一 些 过 于 复杂 的 文档 时 可 能 存在 困难 。 

服务 引用 ”一般 来 说 ， 每 个 Web 服 务 都 有 一 个 URI， 客 户 可 以 使 用 该 URI 来 访问 服务 。URI 最 
常用 的 形式 是 URL。 由 于 URL 包 含 计算 机 的 域名 ， 因 此 始终 可 以 访问 其 指向 的 在 该 计算 机 上 的 服 
务 。 然 而 ,使 用 URN 的 Web 服 务 的 访问 点 依赖 于 上 下 文 ， 并 且 有 了 时 会 发 生 改 变 ， 其 当前 URL 可 以 
通过 URN 查 找 服 务 获得 。 

服务 的 激活 ” Web 服务 可 以 通过 其 域名 包含 在 当前 URL 中 的 计算 机 访问 。 该 计算 机 可 能 自己 运 
行 该 服务 ， 也 可 能 在 另 一 台 服 务 器 计算 机 上 运行 访 服 务 。 例 如 ， 一 个 拥有 上 万 个 客户 的 服务 提供 
者 需要 部 署 几 百 台 计算 机 来 提供 服务 。Web 服 务 可 以 连续 运行 ， 也 可 以 只 在 需要 时 激活 。URL 是 
持久 性 引用 ， 这 意味 着 只 要 服务 器 存在 它 将 永远 指向 某 个 服务 。 

透明 性 许多 中 间 件 平台 的 主要 任务 是 将 程序 员 从 数据 表示 和 编码 以 及 远程 访问 本 地 化 的 细节 
中 解脱 出 来 。 而 这 些 在 Web 服 务 的 基础 结构 或 平台 中 都 没有 提供 。 在 最 简单 的 层次 上 ， 客 户 和 服 
务 器 直接 以 SOAP 格 式 使 用 XML 读 写 消息 。 

但 是 为 了 方便 起 见 ，SOAP 和 XML 的 细节 道 常 被 某 种 编程 语言 的 本 地 API 隐 藏 ， 如 Java、Perl、 
Python 或 C++。 在 这 种 情况 下 ， 服 务 描述 可 以 作为 自动 生成 所 需 编码 和 解码 程序 的 基础 。 

代理 : 可 以 通过 提供 客户 代理 或 存根 过 程 集 来 隐藏 本 地 和 远程 调用 的 区 别 。19.2.3 节 给 出 了 
Java 对 此 的 实现 方法 。 客 户 代理 或 存根 提供 调用 的 静态 形式 ， 它 在 任何 调用 前 生成 每 个 调用 的 框架 
和 编码 过 程 。 

动态 调用 : 代理 的 一 个 替代 方法 是 给 客户 提供 一 个 通用 操作 ， 在 使 用 时 不 用 考虑 要 调用 的 远 
程 过 程 ， 这 与 图 4-15 中 定义 的 DoOperation 过 程 类 似 (但 没有 第 一 个 参数 ) 。 在 这 种 情况 下 ， 客 户 指 
定 操作 的 名 称 和 参数 ， 并 在 送行 中 将 其 转化 为 SOAP 和 XML。 类 似 地 ， 可 以 通过 提供 给 客户 发 送 和 
接收 消息 的 通用 操作 来 实现 单条 消息 的 异步 通信 。 





REST (代表 性 状态 传输 ) ”RESTIFielding 2000] 是 一 种 具有 受 约束 样式 的 操作 的 方法 。 在 
该 方法 中 , 客户 使 用 URL 和 HTTP 操作 GET 、PUT、DELETE 和 POST 来 操纵 用 XML 表示 的 资源 。 
重点 是 数据 资源 的 操纵 而 不 是 接口 ， 是 将 资源 的 完整 状态 提供 给 客户 ， 而 不 是 调用 某 个 操作 提 
供 一 部 分 状态 。Fielding 认 为 在 因特网 中 ， 繁 衍 不 同 的 服务 接口 不 如 使 用 操作 的 一 个 简单 、 最 小 、 
统一 的 操作 集 更 为 有 用 。 在 创建 一 个 新 的 资源 时 ， 它 获得 一 个 新 的 URL， 使 用 该 URL 可 以 对 其 
进行 访问 或 更 新 。 













19.2.1 SOAP 


SOAP 旨 在 因特网 上 实现 客户 -服务 器 以 及 异步 交互 。 它 定义 了 使 用 XML 表示 请 求 和 应 答 消 息 
的 模式 〈 见 图 4-16)， 也 定义 了 文档 通信 的 模式 。 最 初 SOAP 仅 仅 基于 HTTP， 但 是 当前 的 版 本 旨 在 
使 用 各 种 传输 协议 ， 包 括 SMTP、TCP 或 UDP。 本 节 的 描述 是 基于 SOAP 版 本 1.2[www.w3.org IX]， 
它 是 万 维 网 联盟 (W3C) 的 推荐 标准 。SOAP 是 Userland XML-RPC[Winer 1999] 的 扩展 。 

SOAP 规 约 规定 了 ， 

* 如何 使 用 XML 表示 一 条 消息 的 内 容 。 

*。 如 何 组 合 一 个 消息 对 来 生成 请 求 - 应 答 模式 。 

* 消息 的 接收 者 如 何 处 理 消 息 中 的 XML 元 素 的 有 关 规 则 。 

“ HTTP 和 SMTP 如 何 传送 SOAP 消 息 。 和 希望 将 来 的 规范 能 够 定义 如 何 使 用 其 他 传输 协议 ， 如 

TCP。 

本 节 描 述 SOAP 如 何 使 用 XML 表 示 消 息 以 及 如 何 使 用 HTTP 传 送 消 息 。 但 是 ， 程序 员 通 常 不 需 
要 关心 这 些 细节 ， 因 为 SOAP API 已 经 在 很 多 编程 语言 中 得 到 实现 ， 这 些 语言 包括 Java、 Javascript、 
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Perl、Python、.Net、C、C++、C# 和 Visual Basic。 
为 支持 客户 一 服务 器 通信 ，SOAP 规 定 如 何 对 请 求 消息 使 用 HTTP POST 方法 和 其 对 应 答 消 息 的 
响应 。XML 和 HTTP 的 组 合 使 用 为 因特网 上 的 客户 一 服务 器 通信 提供 了 标准 的 协议 。 
SOAP 消 息 在 传送 到 管理 要 访问 的 资源 的 计算 机 的 途中 需要 经 过 一 些 中 间 节 点 ， 高 层 中 间 件 服 
务 (例如 ， 事 务 服务 或 安全 服务 ) 可 以 使 用 这 些 中 间 节 点 来 执行 处 理 。 
SOAP 消 息 SOAP 消 息 装载 在 一 个 “信封 ” ; :pe i 
中 。 在 信封 内 有 一 个 可 选 的 头 部 和 主体 ， 如 图 19- ga 
3 所 示 。 消 息 头 部 可 以 用 于 建立 服务 所 需 的 上 下 文 ek 部 元 素 
或 维持 操作 的 日 志 或 审计 。 某 个 中 间 节 点 可 以 解 ， 
释 并 作用 于 消息 头 部 的 信息 ， 如 增加 、 更 改 或 删 于 A 
除 消息 。 消 息 主 体 携带 某 个 Web 服 务 的 XML 文档 。 于 | “元 半 “站 体 元素 | 
XML 元 素 envelope、header 和 body 以 及 SOAP 有 4 
消息 的 其 他 属性 和 元 素 一 起 被 定义 为 SOAP XML CA ji 
名 字 空 间 中 的 模式 。 有 关 该 模式 的 定义 可 以 查阅 网 区 和 ve 下风 SOAT 作 六 
W3C 的 网 站 [www.w3.org]。 由 于 使 用 了 文本 编码 ，XML 模 式 可 以 使 用 浏览 器 中 的 “查看 源 文件 ” 
选项 查看 。 头 部 和 主体 都 包含 内 部 元 素 。 
前 一 节 已 经 说 过 ， 服 务 描述 包含 客户 和 服务 器 要 共享 的 信息 。 消 息 发 送 者 使 用 这 些 描述 生成 
body， 并 确保 其 包含 了 正确 的 内 容 ， 消 息 接 收 者 使 用 这 些 描 述 分 析 并 检查 内 容 的 有 效 性 。 
SOAP 消 息 可 以 用 于 传送 文档 或 支持 客户 一 服务 器 通信 : 
。 将 要 传送 的 文档 直接 放 在 body 元 素 中 ， 并 将 对 包含 服务 描述 的 XML 模 式 的 引用 同时 放 入 body 
元 素 中 ， 该 模式 定义 了 文档 中 使 用 的 名 称 和 类 型 。 这 种 类 型 的 SOAP 消 息 可 以 同步 或 异步 发 送 。 
。 对 于 客户 一 服务 器 通信 ，body 元 素 包 含 一 个 Request 或 Reply。 这 两 种 情况 均 在 图 19-4 和 图 19-5 
中 说 明 。 


env:envelope xmlnsienv =SOAP 信封 的 命名 空间 URI 
env:body 


mi:exchange a 
xmlns:m = 服务 描述 的 命名 空间 URI 
m:arg 1 m:arg 2 
Hello World 


在 本 图 和 下 图 中 ， 每 个 XML 元 素 都 用 阴影 框 表示 。 其 名 称 为 斜体 ， 后跟 属 性 和 内 容 。 
图 19-4 一 个 没有 头 部 的 简单 请 求 示例 


env:envelope xmins:env = SOAP 信 封 的 命名 空间 URI ” 
env:body 
m:exchangeResponse EU 
xmlns:m = 服务 描述 的 命名 空间 的 URI 二 
mires Ti i Ws i 
World Hello 


图 19-5 对 应 于 图 19-4 中 请 求 的 应 答 示例 


Weip# 0 


图 19-4 给 出 了 一 个 没有 头 部 的 简单 请 求 消息 。body 中 封装 了 元 素 m， 以 及 要 调用 的 过 程 的 名 称 
以 及 相关 服务 描述 的 名 字 空 间 (包含 XML 模式 的 文件 ) 的 URI。 请 求 消息 的 内 部 元 素 包 含 过 程 的 
参数 。 该 请 求 消 息 提 供 了 两 个 字符 串 ， 服 务 器 上 的 过 程 以 相反 的 顺序 返回 这 两 个 字符 串 。 用 env 表 
示 的 XML 名 字 空 间 包含 envelope 的 SOAP 定 义 。 图 19-5 给 出 了 相应 的 成 功 应 答 消 息 ， 其 中 包含 两 个 
输出 参数 。 注 意 ， 在 过 程 的 名 称 上 增加 了 “Response”。 如 果 过 程 有 返回 值 ， 则 可 以 表示 为 元 素 
rpc:result。 注 意 ， 应 答 消 息 与 请 求 消息 使 用 相同 的 两 个 XML 模 式 ， 第 一 个 模式 定义 了 SOAP 信 封 ， 
第 二 个 模式 定义 了 特定 于 应 用 程序 的 过 程 和 参数 名 称 。 

SOAP 故 障 : 如 果 请 求 在 某 种 情况 下 失败 了 ， 则 在 应 答 消息 的 主体 中 用 fault 元 素 传送 故障 描述 。 
该 元 素 包 含 故障 的 相关 信息 ， 包 括 代 码 和 相关 字符 串 以 及 特定 于 应 用 程序 的 细节 。 

SOAP 头 部 ”消息 头 部 可 由 中 间 节 点 添加 到 处 理 装载 在 相应 主体 中 消息 的 服务 中 。 然 而 ， 这 种 
用 法 有 两 个 方面 在 SOAP 规 约 中 尚 不 清晰 : 

1) 头 部 如 何 被 某 种 更 高 层 中 间 件 服务 使 用 。 例 如 ， 头 部 可 能 包含 : 

。 事 务 服务 使 用 的 事务 标识 和 名 

。 消 息 之 间 互 相关 联 (例如 ， 实 现 可 靠 传 输 ) 的 消息 标识 符 。 

。 用 户 名 、 数 字 签 名 或 公 铀 。 

2) 消息 如 何 经 由 中 间 节 点 集 路 由 到 最 终 接收 者 。 例 如 ， 由 HTTP 传 输 的 消息 可 以 经 由 一 系列 
代理 服务 器 ， 其 中 有 些 可 能 作为 SOAP。 

然而 ， 规 约 规定 了 中 间 节 点 的 角色 和 职责 。 角 色 属 性 可 以 指定 每 个 中 间 节 点 都 处 理 元 素 或 者 
都 不 处 理 元 素 ， 或 者 只 是 最 终 接收 者 处 理 元 素 ( 见 [www.w3.org])。 要 执行 的 某 个 动作 由 应 用 程序 
定义 ， 例 如 某 个 动作 可 以 是 记录 元 素 的 内 容 。 

SOAP 消 息 的 传输 需要 使 用 传输 协议 将 SOAP 消 息 发 送 到 其 目的 地 。SOAP 消 息 独立 于 使 用 的 
传输 类 型 一 一 消息 的 信封 不 包含 对 目的 地 址 的 引用 。 目 的 地 址 由 HTTP 或 其 他 用 于 传输 SOAP 消 息 
的 协议 指定 。 

图 19-6 阐 述 了 如 何 使 用 HTTP POST 方法 传输 SOAP 消 息 。HTTP 头 部 和 主体 的 作用 如 下 ; 

“HTTP 头 部 指定 端点 地 址 (最 终 接收 者 的 URI) 和 要 执行 的 动作 。Action 参 数 用 于 最 优化 调 

度 一 一 通过 给 出 操作 的 名 称 而 不 需要 分 析 HTTP 消 息 主体 中 的 SOAP 消 息 。 

。HTTP 主 体 封装 SOAP 消 息 。 


POST lexampleslstringer ”本 一 一 凋 点 地 址 
Host:www.cdk4.net 4 
Content-Type:applicationlsoap+xml ; 
Action:htip://www.cdk4.net/examples/stringertexchange 二 一 动作 
<env:envelope xmins:env = SOAP 信封 的 命名 空间 的 URI> 
<env:header> </env:header> 


<env:body> </env:body> 
</env:Envelope> 


HTTP 头 部 


SOAP 消 息 


图 19-6 SOAP 客 户 一 服务 器 通信 中 HTTP POST Request 的 使 用 
由 于 HTTP 是 同步 协议 ， 它 用 于 返回 一 个 包含 SOAP 应 答 的 应 答 ， 如 图 19-5 所 示 。4.4 节 详 述 了 
对 于 成 功 请 求 和 失败 请 求 ，HTTP 返 回 的 状态 代码 和 原因 。 
如 果 一 个 SOAP Request 仅仅 是 要 返回 信息 的 请 求 ， 它 不 含 任何 参数 并 且 不 改变 服务 器 中 的 数 
据 ， 那 么 可 以 使 用 HTTP GET 方 法 来 执行 它 。 
上 面 关 于 Action 头 部 和 调度 的 特点 适用 于 任何 执行 客户 不 同 动作 的 服务 ， 即 使 这 个 服务 不 提供 
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这 样 的 操作 。 例 如 ，Web 服 务 可 以 处 理 大 量 不 同类 型 的 文档 ， 如 购买 订单 和 询问 ， 它 们 是 由 不 同 
的 软件 模块 处 理 的 。Action 头 部 使 得 可 以 不 需要 检查 SOAP 消 息 就 能 选择 正确 的 模块 。 这 个 头 部 可 
以 在 HTTP 内 容 类 型 指定 为 application/soap+xml 时 使 用 。 

SOAP 信 封 的 定义 和 有 关 如 何 发 送 以 及 发 送 目的 地 信息 的 分 离 使 得 使 用 多 种 不 同 的 底层 协议 成 
为 可 能 。SOAP 规 约 规定 了 SMTP 如 何 作为 一 种 夫 代 协议 传输 编码 为 SOAP 消 息 的 文档 。 

但 是 这 个 优势 往往 是 个 弱点 。 这 意味 着 开发 者 必须 考虑 所 选择 的 特定 传输 协议 的 细节 中 。 另 
外 ， 这 为 某 个 消息 经 过 的 路 由 的 不 同 部 分 使 用 不 同 协 议 带 来 了 困难 。 

SOAP 寻 址 和 路 由 的 进展 前 面 提 和 到 了 两 个 问题 ; 

。 如何 使 SOAP 独 立 于 底层 使 用 的 传输 协议 。 

。 如何 指定 SOAP 和 过 中 间 节 点 集 时 遵循 的 路 由 。 

该 领域 早期 的 成 果 为 Nielsen 和 Thatte[2001] 提 出 的 WS-Routing， 它 建议 应 该 在 SOAP 头 部 指定 
端点 地 址 和 调度 信息 。 这 样 做 能 有 效 地 将 消息 目的 地 同 底 层 协 议 分 开 。 他 们 提出 通过 给 出 端点 地 
址 和 “下 一 跳 ” 地 址 来 指定 要 遵循 的 路 径 。 每 个 中 间 节 点 都 将 更 新 “下 一 跳 ” 信 息 。 

在 Box 和 Curbera 等 [2004] 中 报告 的 最 新 成 果 称 为 WS-Addressing， 它 认为 允许 中 间 节 点 改变 头 
部 信息 会 破坏 安全 性 。 他 们 推荐 了 一 种 替代 方法 : 头 部 指定 端点 的 地 址 ， 底 层 的 SOAP 基 础 设施 提 
供 “ 下 一 跳 ” 信 息 。 另 外 ， 他 们 建议 使 用 SOAP 头 部 指明 返回 地 址 和 消息 标识 符 。 

可 靠 通信 ”Web 服务 缺乏 一 种 在 出 现 故 障 时 可 靠 地 传送 消息 的 协议 。SOAP 常 用 的 HTTP 协 议 运 
行 在 TCP 之 上 ， 在 4.2.4 节 中 已 讨论 了 TCP 的 故障 模型 。 总 结 如 下 :TCP 不 能 保证 在 所 有 情况 下 都 能 
正确 传送 消息 一 一 如 果 等 待 确认 的 时 间 超时 ，TCP 就 会 声明 连接 已 经 中 断 ， 这 时 通信 进程 不 知道 最 
近 发 送 的 消息 是 否 被 接收 。 

在 提供 SOAP 消 息 的 有 保证 传送 、 无 重复 、 保 证 消息 硕 序 的 可 靠 通 信 方 面 已 经 取得 了 一 些 成 果 。 
Ferris 和 Langworthy[2004] 以 及 Evans 等 [2003] 分 别提 出 了 两 种 相互 竞争 的 规范 。 

检查 已 建立 的 容错 措施 (如 确认 、 请 求 的 重 传 、 过 滤 重 复 和 序列 号 ) 是 否 对 大 规模 的 异 构 的 
因特网 环境 有 效 ， 这 是 一 件 很 有 意思 的 事情 。 特 别 是 如 何 选择 超时 时 间 将 会 是 一 个 挑战 。 

穿越 防火 墙 ”Web 服 务 也 可 被 一 个 组 织 中 的 客户 用 于 通过 因特网 访问 另 一 个 组 织 中 的 服务 器 。 
大 多 数组 织 使 用 防火 墙 来 保护 它们 网 络 上 的 资源 ，Java RMI 或 CORBA 使 用 的 传输 协议 通常 不 能 够 
穿越 防火 墙 。 然 而 ， 防 火 墙 通常 允许 HTTP 和 SMTP 消 息 通 过 。 因 此 ， 使 用 这 两 个 协议 之 一 来 传输 
SOAP 消 息 是 非常 方便 的 。 


19.2.2 Web 服 务 与 分 布 式 对 象 模型 的 比较 


Web 服 务 具有 一 个 服务 接口 ， 该 接口 可 提供 操作 来 访问 和 更 新 其 管理 的 数据 资源 。 从 表面 上 
看 ， 客 户 和 服务 器 之 间 的 交互 十 分 类 似 于 RMI， 在 RMI 中 客户 使 用 远程 对 象 引 用 来 调用 远程 对 象 中 
的 操作 。 对 于 Web 服 务 ， 客 户 使 用 URI 来 调用 该 URI 标 识 的 资源 中 的 操作 。 有 关 Web 服 务 和 分 布 式 
对 象 之 间 的 相似 点 和 区 别 的 讨论 ， 参 见 Birman[2004]、 Vinoski[2002] 和 Vogels[2003]。 通 过 5.5 节 
Java RMI 和 20.2 节 CORBA 中 使 用 的 共享 白板 的 例子 ， 我 们 试图 给 出 上 面 分 析 的 局 限 性 。 

远程 对 象 引 用 与 URI 不 是 十 分 类 似 ”Web 服 务 的 URI 的 作用 与 单个 对 象 的 远程 对 象 引 用 的 作用 
看 似 相 似 。 然 而 ， 在 分 布 式 对 象 模型 中 ， 对 象 可 以 动态 创建 远程 对 象 并 返回 其 远程 引用 。 接收 者 
可 以 使 用 这 些 远程 引用 调用 所 引用 的 对 象 中 的 操作 。 在 共享 白板 的 例子 中 ， 对 newShape 工 厂 方法 
的 调用 创建 了 Shape 对 象 的 一 个 新 实例 ， 并 返回 对 实例 的 远程 引用 。 不 能 创建 远程 对 象 的 实例 的 
Web 服 务 不 能 完成 类 似 的 工作 。 

Web 服 务 模型 ”考虑 到 不 是 使 用 透明 的 Java 到 Java 的 远程 调用 ， 而 是 使 用 Web 服 务 模型 ， 在 该 
模型 中 远程 对 象 不 能 实例 化 ， 因 此 Java Web 服 务工 具 包 (JAX-RPC)[java.sun.com VIT] 的 用 户 必须 为 
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Web 服 务 程序 建 模 使 其 满足 这 个 限制 。JAX-RPC 考 虑 到 这 一 点 ， 它 不 允许 将 远程 对 象 引 用 作为 参 
数 传递 或 作为 结果 返回 。 
图 19-7 给 出 了 图 5-12 中 接口 的 另 一 个 版 本 ， 如 下 修改 该 接口 使 其 成 为 Web 服 务 接口 : 
。 在 程序 最 初 (分 布 式 对 象 ) 的 版 本 中 ， 在 服务 器 中 创建 Shape 的 实例 ， 并 由 newShape 返 回 对 
这 些 实例 的 远程 引用 ，newShape 的 改进 (Web 服务 ) 版 本 如 行 1 所 示 。 为 避免 远程 对 象 的 实 
例 化 以 及 相应 的 对 远程 对 象 的 使 用 ， 删 除了 Shape 接 口 并 将 其 操作 (getAllState 和 
getGOVersion 一 一 最 初 的 getVersion) 添加 到 ShapeList 接 口中 。 
* 在 程序 最 初 (分 布 式 对 象 ) 的 版 本 中 ， 服 务 器 存储 了 Shape 的 一 个 向 量 。 现 在 将 其 更 改 为 
GraphicalObject 的 一 个 向 量 。 方 法 newShape 的 新 (Web 服务 ) 版 本 返回 一 个 整数 ， 它 表示 该 
向 量 中 GraphicalObject 的 偏 移 量 。 





import java.rmi.*, 
public interface ShapeList extends Remore { 
int newShape{ GraphicalObject 8) throws RemoteException: 7 
int numberOfShapes( Jthrows RemoreException: 
int gerVersion( ) throws RemoteException; 
int getGOVersion(int ijthrows RemoteException; 


GraphicalObject getAllState{ int i) throws RemoteException; 





图 19-7 Java Web 服 务 接口 ShapeList 


修改 方法 newShape 意 味 着 它 不 再 是 工厂 方法 ， 也 就 是 说 ， 该 方法 不 再 创建 远程 对 象 的 实例 。 

伺服 器 在 分 布 式 对 象 模型 中 ， 服 务 器 程序 通常 被 建 模 化 为 伺服 器 的 集合 (潜在 的 远程 对 象 ) ， 
例如 ， 共 享 白板 应 用 程序 对 形状 列表 使 用 一 个 伺服 器 ， 并 为 创建 的 每 个 图 形 对 象 使 用 一 个 伺服 器 。 
将 这 些 伺 服 器 分 别 创建 为 伺服 器 类 ShapeList 和 Shape 的 实例 。 服 务 器 启动 时 ， 其 main 函 数 创建 
ShapeList 的 实例 ， 每 当 客户 调用 newShape 方 法 时 ， 服 务 器 创建 Shape 的 一 个 实例 。 

相反 ，Web 服 务 不 支持 伺服 器 。 因 此 ， 在 需要 处 理 不 同 的 服务 器 资源 时 ，Web 服 务 应 用 程序 不 
能 创建 伺服 器 。 为 实施 这 一 点 ，Web 服 务 接口 的 实现 既 没 有 构造 函数 也 没有 main 方 法 。 


19.2.3 在 Java 中 使 用 SOAP 


用 于 开发 SOAP 上 的 Web 服务 和 客户 端的 Java API 称 为 JAX-RPC， 在 Java Web 服 务 教程 
Dava.sun.com VIH] 中 介绍 了 JAX-RPC。 该 API 对 客户 和 服务 的 编程 人 员 隐 藏 了 SOAP 的 所 有 细节 。 

JAX-RPC 将 Java 语 言 中 的 某 些 类 型 映射 到 SOAP 消 息 和 服务 描述 使 用 的 XML 中 的 定义 上 。 允许 
使 用 的 类 型 包括 lnteger、String、 Date 和 Calendar 以 及 java.net.uri， 它 允许 将 URI 作 为 参数 传递 或 作 
为 结果 返回 。JAX-RPC 不 仅 支持 语言 的 简单 类 型 和 数组 ， 还 支持 某 些 集合 类 型 (包括 Vector) 。 

另外 ， 某 些 类 的 实例 可 以 作为 参数 传递 ， 也 可 以 作为 远程 调用 的 结果 传递 ， 前 提 是 ; 

* 每 个 实例 变量 都 是 上 述 所 允许 的 类 型 之 一 。 

。 都 拥有 公共 的 默认 构造 函数 。 

。 没 有 实现 Remote 接 口 。 

一 般 来 说 (如 前 一 节 提 到 的 )， 远 程 引用 (〈 即 实现 了 Remote 接 口 ) 的 类 型 的 值 不 能 作为 参数 传 
递 或 作为 远程 调用 的 结果 返回 。 

服务 接口 Web 服务 的 Java 接 口 必须 遵循 以 下 规则 ， 其 中 某 些 规 则 如 图 19-7 所 示 ，; 

。 必 须 扩 展 Remote 接 口 。 

* 必须 不 含 常量 声明 ， 例 如 ， public final static。 
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。 方 法 必须 抛 出 java.rmi.RemoteException 或 其 子 类 异常 。 

* 方法 参数 和 返回 类 型 必须 符合 JAX-RPC 类 型 。 

服务 器 程序 ”实现 ShapeList 接 口 的 类 如 图 19-8 所 示 。 如 上 所 述 ， 该 类 不 含 main 方 法 ，ShapeList 
接口 的 实现 也 不 包含 构造 函数 。 实 际 上 ，Web 服 务 是 提供 一 组 过 程 的 单个 对 象 。 图 19-7、 图 19-8 和 
图 19-9 中 的 源 程序 可 以 从 本 书 的 网 站 www.cdk4.net/Webs 上 获得 。 








import java.util.Vector; 


public class ShapeListImpl implements ShapeList { 
private Vector theList = new Vector(); 
private int version = 小 
private Vector theVersions = new Vector(); 


public int newShape(GraphicalObject g) throwsRemoteException{ 
versiont++; 
theList.addElement{ 8); 
theVersions.addElement{new Integer{version)); 
return thelist.sizel{ ); 
} 
public int numberOfShapes{ J{} 
public int getVersion( } {} 
public int getGOVersion(int iX } 
public GraphicalObject getAllState(int i) {} 





图 19-8 ShapeList 服 务 器 的 Java 实 现 





package staticstub; 
import javax.xml.rpc.Stub; 
public class ShapelistClient { 
public static void main( String[] args) { /* pass URL of service */ 


iry{ 
Stub proxy = createProxy{ ); 了 
proxy._setProperty 2 
(javax.xml.rpc.Stub.ENDPOINT_ADDRESS_PROPERTY, args[O)); 
ShapeList aShapeList = (ShapeList}proxy; 3 
GraphicalObject g = aShapeList.getAllState(0); 4 
} catch (Exception ex) { ex.printStackTrace(); } 
2} 
private static Stub createProxy(){ 5 
return 


(Stub) (new MyShapeListService_Impl().getShapeListPort(}): 6 








图 19-9 ShapeList 客 户 端 的 Java 实 现 


服务 的 接口 和 实现 按 通 常 方式 编译 。 可 以 使 用 两 个 工具 wscompile 和 wsdeploy 生 成 骨架 类 和 
WSDL 格 式 的 服务 描述 ， 这 将 用 到 与 服务 的 URL 有 关 的 信息 、XML 格 式 的 配置 文件 中 的 服务 名 称 
和 描述 。 服 务 的 名 称 (在 该 例 中 为 MyShapeListService) 用 于 生成 客户 程序 访问 该 服务 时 使 用 的 类 
的 名 称 ， 即 MyShapeListService_Impl。 

Servlet 容 器 ”服务 实现 作为 servlet 运 行 在 Servlet 容 器 中 。Servlet 容 器 的 作用 是 加 载 、 初 始 化 并 
执行 servlet。 它 包括 分 发 器 和 骨架 ( 见 5.2.5 节 )。 当 请 求 到 达 时 ， 分 发 器 将 该 请 求 映 射 到 某 个 骨架 ， 


Web 服 务 507 








该 骨架 将 请 求 转换 为 Java 格 式 并 传送 给 serviet 中 的 适当 方法 ， 由 该 方法 执行 请 求 并 生成 应 答 ， 然 后 
骨架 再 将 该 应 答 转 换 为 SOAP 应 答 。 服 务 的 URL 由 servlet 容 器 的 URL 以 及 服务 类 别 和 名 称 连 接 而 成 ， 
如 http://localhost:8080/ShapeList-jaxrpc/ShapeList。 

Tomcat[Apache 2004] 是 一 个 常用 的 servlet 容 器 。 运 行 Tomcat 时 ， 可 以 使 用 浏览 器 输入 一 个 
URL 来 查看 其 管理 界面 。 该 界面 显示 了 当前 部 署 的 servlet 的 名 称 ， 并 提供 了 一 系列 操作 来 管理 这 些 
servlet， 以 及 获取 每 个 servlet 的 包括 服务 描述 在 内 的 相关 信息 。 一 旦 在 Tomcat 中 部 署 了 某 个 servlet， 
客户 就 可 以 访问 该 servlet， 其 操作 的 组 合 效果 将 存储 在 servlet 的 实例 变量 中 。 在 我 们 的 例子 中 生成 
了 Graphicalobjects 的 一 个 列表 ， 在 客户 请 求 newShape 操 作 后 ， 将 每 个 GraphicalObjects 作 为 客户 请 
求 newShape 的 结果 添加 入 该 列表 。 如 果 通 过 Tomcat 管 理 界 面 停止 某 个 servlet， 那 么 在 重启 该 servlet 
时 实例 变量 的 值 将 被 重 置 。 

Tomcat 还 提供 对 其 包含 的 每 个 服务 的 服务 描述 的 访问 ， 这 使 得 编程 人 员 能 够 设计 客户 程序 ， 
并 使 客户 代码 请 求 的 代理 的 自动 编译 更 加 方便 。 由 于 服务 描述 是 用 XML 表述 的 ， 因 此 是 人 可 读 的 。 

客户 程序 客户 程序 可 以 使 用 静态 代理 、 动 态 代理 或 动态 调用 接口 。 在 各 种 情况 下 ， 都 可 以 从 
相关 的 服务 描述 中 获得 客户 代码 所 需 的 信息 。 在 我 们 的 例子 中 ， 服 务 描述 可 以 从 Tomcat 中 获得 。 

静态 代理 : 图 19-9 显 示 了 ShapeList 客 户 通过 代理 (将 消息 发 送 到 远程 服务 的 本 地 对 象 ) 发 起 
调用 。 代 理 的 代码 由 wscompile 从 服务 描述 中 生成 。 代 理 的 类 名 是 在 服务 的 名 称 后 添加 ”Impl” 得 
到 的 。 在 本 例 中 ， 代 理 类 称 为 MyShapeListService_Impl。 该 名 称 是 特定 于 实现 的 ， 因 为 SOAP 规 范 
中 并 没有 给 出 代理 类 的 命名 规则 。 

在 程序 的 第 1 行 ， 调 用 creatProxy 方 法 。 该 方法 如 第 5 行 所 示 ， 在 第 6 行 它 使 用 
MyShapeListService_Impl 创 建 了 一 个 代理 ， 然 后 返回 了 该 代理 (注意 ， 由 于 代理 有 时 被 称 为 存根 ， 
所 以 出 现 类 Stub 的 名 称 )。 在 第 2 行 ， 通 过 命令 行 给 出 的 参数 将 服务 的 URL 提 供给 代理 。 在 第 3 行 ， 
将 proxy 的 类 型 强制 转换 为 ShapeList 接 口 的 类 型 。 第 4 行 调用 了 远程 过 程 getAllState， 请 求 服务 返回 
GraphicalObjects 的 Vector 中 第 0 个 元 素 的 对 象 。 

由 于 代理 是 在 编译 时 创建 的 ， 因 此 这 种 代理 称 为 静态 代理 。 从 中 生成 的 服务 的 服务 描述 不 一 定 
是 从 Java 接 口中 生成 的 ， 它 可 以 由 各 种 不 同 语言 系统 的 相关 工具 生成 ， 甚至 可 以 直接 用 XML 写成 。 

动态 代理 : 除了 可 以 使 用 预 编译 的 静态 代理 外 ， 客 户 也 可 以 使 用 动态 代理 。 动 态 代理 的 类 是 在 运 
行 时 从 服务 描述 和 服务 接口 的 信息 中 生成 的 。 这 种 方法 避免 了 代理 类 使 用 特定 于 实现 的 名 称 的 问题 。 

动态 调用 接口 : 允许 客户 调用 远程 过 程 ， 即 使 服务 的 基调 或 服务 的 名 称 在 运行 前 是 未 知 的 。 
与 以 上 方法 不 同 的 是 ， 客 户 不 需要 代理 ， 但 必须 在 发 起 过 程 调用 前 使 用 一 系列 操作 来 设置 服务 器 
操作 的 名 称 、 返 回 值 以 及 每 个 参数 。 

Java SOAP 的 实现 Java API 的 实现 方式 可 以 用 图 5-7 来 阐述 。 以 下 各 段 说 明了 Java/SOAP 环 
境 中 各 个 组 件 的 作用 一 一 组 件 之 间 的 相互 作用 跟 以 前 一 样 。 不 存在 远程 引用 模块 。 

通信 模块 : 通信 模块 的 任务 由 一 对 HTTP 模 块 实现 。 服 务 器 中 的 HTTP 模 块根 据 action 头 部 中 的 
URL 为 POST 请 求 选择 合适 的 分 发 器 。 

客户 代理 : 代理 (或 存根 ) 方法 知道 服务 的 UREL， 并 将 其 方法 的 名 称 和 参数 与 对 该 服务 的 
XML 模式 的 引用 一 起 编码 到 SOAP 请 求 信封 中 。 对 应 答 的 解码 包括 分 析 SOAP 信 封 来 抽取 结果 、 返 
回 值 或 故障 报告 。 将 客户 的 请 求 方法 调用 作为 HTTP 请 求 发 送 到 服务 。 

分 发 器 和 骨 条 : 如 上 所 述 ， 分 发 器 和 骨架 存在 于 servlet 容 器 中 。 分 发 器 从 HTTP 请 求 的 action 头 
部 抽取 操作 的 名 称 ， 然 后 调用 合适 的 骨架 中 的 相应 方法 ， 并 将 SOAP 信 封 传递 给 该 方法 。 骨 架 方法 
执行 以 下 任务 : 分 析 请 求 消息 中 的 SOAP 信 封 ， 然 后 抽取 其 参数 ， 调 用 相应 的 方法 ， 生成 包含 结果 
的 SOAP 应 答 信 封 。 

SOAP/XMEL 中 的 错误 、 故 障 和 正确 性 : HTTP 模 块 、 分 发 器 、 骨 架 或 服务 自身 都 可 以 报告 故 
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障 。 服 务 可 以 通过 返回 值 或 利用 服务 描述 中 指定 的 故障 参数 报告 其 错误 。 骨 架 负 责 检 查 SOAP 信 封 
包含 的 请 求 以 及 XML (SOAP 信 封 用 良 构 的 XML 写成 )。 确 认 XML 的 有 效 性 后 ， 骨 架 将 使 用 信封 中 
的 XML 名 字 空 间 检 查 请 求 是 否 与 提供 的 服务 对 应 以 及 操作 和 其 参数 是 否 适合 。 如 果 请 求 验证 在 上 
述 阶段 中 的 任 一 阶段 失败 ， 则 向 客户 返回 错误 。 在 接收 到 包含 结果 的 SOAP 信 封 时 ， 代 理 也 进行 类 
似 的 检查 。 


19.2.4 Web 服 务 和 CORBA 的 比较 


Web 服 务 和 CORBA 或 其 他 类 似 的 中 间 件 的 主要 区 别 是 使 用 它们 的 上 下 文 不 同 。CORBA 用 于 
单个 组 织 或 很 少 的 几 个 协作 组 织 。 这 导致 设计 的 某 些 方面 过 于 集中 ， 不 适合 独立 组 织 协作 使 用 或 
在 没有 预先 安排 时 的 自主 使 用 ， 下 面 我 们 将 解释 这 个 问题 。 

名 字 问 题 “在 CORBA 中 ， 通 过 CORBA 名 字 服 务 ( 见 20.3.1 节 ) 的 实例 管理 的 名 称 来 引用 每 个 
远程 对 象 。 这 种 类 似 DNS 的 服务 提供 名 称 到 表示 地 址 的 值 (CORBA 中 为 IOR) 之 间 的 映射 。 但 与 
DNS 不 同 的 是 ，CORBA 名 字 服 务 旨 在 用 于 一 个 组 织 而 不 是 整个 因特网 。 

在 CORBA 名 字 服 务 中 ， 每 个 服务 器 管理 一 个 具有 初始 的 名 字 上 下 文 的 名 称 图 ， 该 服务 器 最 初 
独立 于 其 他 服务 器 。 尽 管 各 个 组 织 可 能 联合 他 们 的 名 字 服 务 ， 但 这 不 能 自动 完成 。 在 一 个 服务 器 
与 另 一 个 服务 器 联合 之 前 ， 需 要 知道 后 者 的 初始 名 字 上 下 文 。 因 此 ，CORBA 名 字 服 务 的 设计 将 
CORBA 对 象 的 共享 有 效 地 限制 到 已 经 联合 名 字 服 务 的 几 个 组 织 中 。 

引用 问题 ”现在 考虑 CORBA 远 程 对 象 引用 ( 称 之 为 IOR， 见 20.2.4 节 ) 是 否 可 以 以 类 似 URL 的 
方式 用 作 因 特 网 范围 内 的 对 象 引用 。 每 个 IOR 包 含 一 个 槽 , 指定 其 引用 的 对 象 的 接口 的 类 型 标识 符 。 
不 过 ， 只 有 存储 相应 类 型 定义 的 接口 库 才 能 理解 这 个 类 型 标识 符 。 这 意味 着 客户 和 服务 器 需要 使 
用 相同 的 接口 库 ， 这 在 全 球 范围 应 用 中 实际 上 并 不 可 行 。 

相反 ， 在 Web 服 务 模型 中 ， 服 务 由 URL 标 识 ， 这 使 得 处 于 因特网 上 任何 位 置 的 客户 都 可 以 请 
求 位 于 因特网 其 他 位 置 上 的 组 织 中 的 服务 。 也 就 是 说 ， 客 户 可 以 通过 因特网 共享 Web 服 务 。URL 
访问 叭 “需要 的 服务 就 是 DNS， 而 DNS 可 以 在 因特网 范围 内 有 效 地 工作 。 

激活 和 定位 的 分 离 “定位 和 激活 Web 服 务 的 任务 被 巧妙 地 分 离开 来 。 相 反 ，CORBA 持 久 引 用 
指 的 是 平台 的 一 个 组 件 (实现 仓库 )， 它 在 任何 合适 的 计算 机 上 按 需 激活 相应 的 对 象 ， 一 旦 激活 对 
象 ， 它 还 将 负责 定位 对 象 。 

易 用 性 虽然 用 户 需要 一 种 方便 的 编程 语言 API 用 于 SOAP 通 信 ， 但 Web 服 务 的 HTTP 和 XML 基 
础 结构 易于 理解 和 使 用 ， 并 且 已 经 安装 在 所 有 最 常用 的 操作 系统 上 。 相 反 ，CORBA 平 台 需 要 安装 
和 支持 庞大 复杂 的 软件 。 

效率 ”CORBA 是 比较 高 效 的 ， CORBA CDR (4.3.1 节 ) 是 二 进 制 的 ， 而 XML 是 文本 方式 的 。 
Olson 和 Ogbuji[2002] 的 一 项 研究 比较 了 CORBA、 SOAP 和 XML-RPC 的 性 能 。 他 们 发 现 ，SOAP 请 
求 消息 的 大 小 是 CORBA 中 等 价 消息 的 14 信 ，SOAP 请 求 耗费 的 时 间 是 CORBA 调 用 的 882 倍 。 但 在 
某 些 应 用 中 ，SOAP 的 消息 开销 和 较 低 的 性 能 并 不 易 觉察 ， 由 于 廉价 的 带宽 、 处 理 器 、 内 存 和 磁盘 
空间 越 来 越 普及 ，SOAP 的 低 效 变 得 更 不 明显 。 

W3C 等 组 织 一 直 在 研究 允许 XML 元 素 包 括 二 进 制 数据 以 提高 效率 的 可 行 性 。 有 关 该 主题 的 讨 
论 请 参见 www.w3.org。 请 注意 ，XML 已 经 提供 了 二 进 制 数据 的 十 六 进 制 和 base64 表 示 。Base64 表 
示 与 XML 加 密 联 合 使 用 〈 见 19.5 节 )。 将 二 进 制 数据 转换 为 Base64 或 十 六 进 制 数据 的 时 间 和 空间 开 
销 相 当 大 。 因 此 ， 真 正 需要 的 是 能 够 包括 数据 项 (如 CORBA CDR 或 gzip 生 成 的 ) 的 预 解析 顺序 的 
一 进 制 表示 。 男 一 个 正在 研究 的 方法 是 与 附件 一 起 发 送 SOAP 消 息 (其 中 某 些 附件 可 能 是 二 进 制 的 ) 
并 使 用 复合 MIME 文 本 传输 它 。 然 而 ， 最 后 一 种 方法 并 不 符合 SOAP 模 型 。 

CORBA 的 优势 ”CORBA 服 务 在 事务 、 并 发 控制 、 安 全 和 访问 控制 、 事 件 和 持久 对 象 方面 的 
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优势 使 其 成 为 在 单个 组 织 内 或 者 相关 的 几 个 组 织 内 使 用 的 许多 应 用 程序 中 的 合适 选择 。 通 常 ， 
CORBA 非 常 适合 具有 复杂 交互 的 应 用 。 另 外 ， 分 布 式 对 象 模型 对 设计 复杂 应 用 很 有 吸引 力 ， 因 此 
值得 花费 一 些 精力 去 理解 CORBA 对 象 模 型 (20.2 节 ) 和 使 用 的 特定 编程 语言 之 间 的 关系 。 


19.3 服务 描述 和 Web 服 务 接口 定义 语言 


客户 与 服务 进行 通信 需要 使 用 接口 定义 。 对 于 Web 服 务 ， 接口 定义 是 通常 的 服务 描述 的 一 部 
分 ， 服 务 描述 还 指定 了 另外 两 个 特性 一 一 消息 如 何 通信 (如 通过 HTTP 上 的 SOAP) 以 及 服务 的 URI。 
为 满足 多 语言 环境 中 的 使 用 ， 服 务 描 述 使 用 XML 编写 。 

服务 描述 构成 了 客户 和 服务 器 之 间 对 提供 的 服务 达成 共识 的 基础 ， 它 聚 集 了 服务 方面 所 有 
与 客户 有 关 的 因素 。 服 务 描 述 通常 用 于 生成 客户 端 存根 ， 存 根 将 自动 为 客户 实现 正确 的 行为 。 

服务 描述 的 类 似 接口 定义 语言 (IDL) 组 件 比 其 他 IDL 更 为 灵活 ， 因为 服务 可 以 按照 发 送 或 接 
收 消息 的 类 型 指定 ， 也 可 以 根据 所 支持 的 操作 指定 ， 从 而 允许 文档 交换 以 及 请 求 -应 答 形式 的 交互 。 

Web 服 务 及 其 客户 可 以 使 用 很 多 不 同方 法 进行 通信 ， 因 此 通信 方法 由 服务 提供 者 决定 并 在 服 
务 描 述 中 说 明 ， 而 不 是 像 CORBA 一 样 将 其 构建 进 系统 。 

将 服务 的 URI 写 和 人 服务 描述 可 以 避免 使 用 大 部 分 其 他 中 间 件 使 用 的 单独 的 绑 定 器 或 名 字 服 务 ， 
这 意味 着 一 旦 服务 描述 对 潜在 的 客户 公开 ， 将 不 能 更 改 其 URI。 但 URN 模 式 通 过 引用 层 上 的 间接 性 
从 而 允许 位 置 的 变化 。 

相反 ， 在 绑 定 器 方法 中 ， 客 户 在 运行 时 使 用 名 称 来 查找 服务 引用 ， 因而 允许 随时 更 改 服务 引 
用 。 但 是 这 种 方法 需要 在 所 有 服务 的 名 称 和 服务 引用 之 间 存在 一 个 间接 层 ， 即使 许多 服务 依旧 在 
相同 位 置 也 是 如 此 。 

在 Web 服 务 环境 中 ，Web 服 务 描述 语言 (WSDL) 通常 用 于 服务 描述 。 在 编写 本 书 时 ，WSDL 
2.0 [www.w3.org XJ] 就 是 wW3C 的 工作 草案 。 它 定 义 了 表示 服务 描述 组 件 的 XML 模式 ， 包 括 诸如 名 
为 definition、type、message、interface、 binding 和 service 的 元 素 。 

WSDL 将 服务 描述 的 抽象 部 分 与 具体 部 分 分 开 ， 如 图 19-10 所 示 。 


完 4 A 
me 
目标 名 字 空间 “文档 样式 。 请 求 -应 答 样式 。 如何 哪里 


图 19-10 ”WSDL 描述 中 的 主要 元 素 


描述 的 抽象 部 分 包括 服务 使 用 的 一 组 类 型 的 定义 ， 特 别 是 消息 中 交换 的 值 的 类 型 。 19.2.3 节 中 
的 Java 示 例 的 接口 如 图 19-7 所 示 ， 它 使 用 了 Java 类 型 int 和 GraphicalObject。 前 者 ( 跟 其 他 基本 类 型 
一 样 ) 可 以 直接 转换 成 XML 中 相应 的 类 型 ， 但 GraphicalObject 是 用 Java 类 型 int、 String 和 boolean 定 
又 的 。 为 满足 异 构 的 客户 使 用 ，GraphicalObject 用 XML 表示 为 复杂 类 型 ， 由 一 组 命名 的 XML 类 型 
组 成 ， 例 如 包括 : 

<element name="isFilled" type="boolean"/> 

< element name="originx" type="int"/> 

WSDL 定 义 的 type 项 内 定义 的 名 称 集 称 为 它 的 目标 名 字 空 间 。 抽象 部 分 的 message 项 包含 交换 的 消息 
集 的 描述 。 对 于 文档 样式 的 交互 来 说 ， 这 些 消 息 将 直接 被 使 用 。 对 于 请 求 -应 答 样式 的 交互 来 说 ， 每 个 
操作 有 两 条 消息 ， 用 于 描述 interface 项 中 的 操作 。 具体 部 分 指定 了 如 何 联系 服务 以 及 在 哪里 联系 服务 。 

WSDL 定 义 的 固有 的 模块 性 允许 其 组 件 以 不 同 的 方式 组 合 在 一 起 ， 例 如 ， 相同 的 接口 可 以 与 不 
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同 的 绑 定 或 位 置 一 起 使 用 。 类 型 可 以 在 type 元 素 内 定义 ， 也 可 以 在 type 元 素 中 的 URI 引 用 的 单独 文 
档 中 定义 。 在 以 后 的 例子 中 ， 类 型 定义 可 以 从 几 个 不 同 的 WSDL 文 档 引 用 。 

消息 或 操作 在 Web 服 务 中 ， 客 户 和 服务 器 所 需要 的 是 对 要 交换 的 信息 达成 共识 。 车 服务 只 涉及 
很 少 几 个 不 同类 型 的 文档 的 交换 ， 则 WSDL 只 需 描述 要 交换 的 不 同 信 息 的 类 型 。 当 客 户 发 送 这 些 消 
息 之 一 到 Web 服 务 时 ， 服 务 基于 其 收 到 的 消息 的 类 型 决定 执行 何 种 操作 以 及 给 客户 返回 何 种 类 型 的 
信息 。 在 我 们 给 出 的 Java 例 子 中 ， 为 接口 中 的 每 个 操作 定义 两 条 消息 一 一 一 条 用 于 请 求 ， 一 条 用 于 应 
答 。 例 如 ， 图 19-11 给 出 了 操作 newShape 的 请 求 和 应 答 消息 ， 该 操作 具有 一 个 类 型 为 GraphicalObject 
的 输入 参数 和 类 型 为 int 的 输出 参数 。 


message name =" ShapeList_newShape " 


上 ‘part name ="GraphicalObject_1" fn 
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图 19-11 newShape 操 作 的 WDSL 请 求 和 应 答 消息 


但 对 于 支持 多 个 不 同 操作 的 服务 ， 将 交换 的 消息 指定 为 对 带 参 数 的 操作 的 请 求 以 及 相应 的 应 
答 ， 允 许 服务 将 每 个 请 求 分 派 到 合适 的 操作 ， 这 种 方法 效率 更 高 。 然 而 ， 在 WSDL 中 ， 操 作 由 相关 
的 请 求 和 应 答 消息 组 成 ， 而 不 是 服务 接口 中 操作 的 定义 构成 。 

接口 ”属于 同一 个 Web 服 务 的 操作 集合 分 为 一 组 ， 放 在 名 为 interface (有 时 称 为 PortType) 的 
XML 元 素 中 。 每 个 操作 必须 指定 客户 和 服务 器 之 间 消 息 交 换 的 模式 。 可 选 的 模式 如 图 19-12 所 示 。 
第 一 个 模式 In-Out 是 客户 /服务 器 通信 常用 的 RR (请 求 /应 答 ) 形式 。 在 这 种 模式 中 ， 应 答 消 息 可 以 
用 故障 消息 代替 。In-Only 用 于 带 有 或 许 语义 的 单 向 消息 ，Out-Only 用 于 服务 器 到 客户 的 单 向 消息 ， 
这 两 种 模式 都 不 能 同 故障 消息 一 起 发 送 。Robust In-Only 和 Robust Out-Only 是 相应 的 有 传递 保证 的 
消息 ， 这 时 可 以 交换 故障 消息 。Out-In 是 由 服务 器 发 起 的 请 求 /应 答 交 互 。 





故障 消息 


In-Out 请 : 可 以 代替 应 答 
In-Only 请 3 没有 故障 消息 


Robust In-Only 证 的 可 以 发 送 

Out-In 请 3 可 以 代替 应 答 
Out-Only 请 没有 故障 消息 
Robust Out-Only 请 3 有 保证 的 可 以 发 送 故障 





图 19-12 WSDL 操 作 的 消息 交换 模式  ， 、 


回 到 上 面 那个 Java 的 例子 ， 每 个 操作 定义 为 In-Out 模 式 。 操 作 newShape 如 图 19-13 所 示 ， 该 操 
作 使 用 图 19-11 定 义 的 消息 。 这 个 定义 与 其 他 四 个 操作 的 定义 都 能 套 在 XML 的 interface 元 素 中 。 操 
作 也 可 以 指定 可 以 发 送 的 故障 消息 。 

但 是 ， 如 果 一 个 操作 有 两 个 参数 ， 一 个 是 整数 ， 另 一 个 是 字符 串 ， 那 么 就 没有 必要 定义 新 的 
数据 类 型 ， 因 为 这 些 类 型 都 已 经 定义 为 XML 模式 了 。 然 而 ， 这 样 就 需要 定义 包含 这 两 个 部 分 的 消 
息 。 该 消息 可 以 用 作 操 作 定义 中 的 输入 或 输出 。 

继承 : 任何 WSDL 接 口 都 可 以 扩展 一 个 或 多 个 其 他 WSDL 接 口 。 这 是 继承 的 一 种 简单 形式 ， 在 
继承 中 接口 除了 支持 自身 定义 的 操作 外 ， 还 支持 其 继承 的 所 有 接口 的 操作 。 接 口 不 允许 递归 定义 ， 
即 如 果 接 口 B 扩 展 了 接口 A， 则 接口 A 不 能 再 扩展 接口 B。 
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tns: 目标 命名 空间 xsd: XML 模式 定义 
在 WSDL 的 XML 模式 中 定义 了 名 字 operation, pattern, input 和 output。 
图 19-13 WSDL 操 作 newShape 80 


ww 


具体 部 分 WSDL 的 其 余部 分 (具体 部 分 ) 由 binding (协议 的 选择 ) 和 service (端点 或 服务 器 
地 址 的 选择 ) 组 成 。 这 两 者 是 相关 联 的 ， 因 为 地 址 的 形式 取决 于 使 用 的 协议 类 型 。 例 如 ，SOAP 端 
点 使 用 URI， 而 CORBA 端 点 使 用 特定 于 CORBA 的 对 象 标识 符 。 

绑 定 : WSDL 文 档 中 的 binding 项 表示 要 使 用 何 种 消息 格式 和 外 部 数据 表示 形式 。 例 如 ，Web 
服务 通常 使 用 OAP、HTTP 和 MIME。 但 最 终 还 是 使 用 诸如 GIOP ( 见 20.1 节 ) 来 访问 CORBA 对 象 
的 实例 。 绑 定 可 以 与 特定 操作 或 接口 相关 联 ， 也 可 以 供 许 多 不 同 的 Web 服 务 自由 使 用 。 

图 19-14 给 出 嵌 套 了 一 个 soap:binding 的 binding， soap:binding 指 定 了 传输 SOAP 信 封 的 特定 协议 
的 URL: SOAP 的 HTTP 绑 定 。 通 过 该 元 素 可 选 的 属性 还 可 以 指定 : 

* 消息 交换 的 模式 ， 可 以 是 rpe (请 求 /应 答 ) 或 document 交 换 模式 。 默 认 值 为 document 模 式 。 

。 消 息 格式 的 XML 模式 。 默 认 值 为 SOAP envelope。 

。 外 部 数据 表示 的 XML 模式 。 默 认 值 为 XML 的 SOAP 编 码 。 
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"http://localhost:8080/ShapeList-jaxrpc/ShapeList" 
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图 19-14 SOAP 绑 定 和 服务 定义 


图 19-14 还 显示 了 一 个 操作 newShape 的 绑 定 的 详细 信息 ， 它 指定 了 input 和 output 消 息 都 应 在 [804] 
SOAP 主 体内 传输 ， 使 用 了 特定 的 编码 样式 ， 另 外 操作 还 应 作为 SOAP Action 传 输 。 

服务 : WSDL 文 档 中 的 每 个 service 元 素 都 指定 了 服务 的 名 称 和 一 个 或 多 个 端点 (或 端口 )， 在 
端点 将 与 服务 的 某 个 实例 联系 。 每 个 endpoint 元 素 引 用 所 使 用 的 绑 定 的 名 称 ， 在 使 用 SOAP 绑 定 的 
情况 下 ， 使 用 一 个 soap:address 元 素来 指定 服务 位 置 的 URI。 

文档 在 WSDL 文 档 内 的 大 部 分 地 方 ; 可 以 将 人 与 机 器 都 可 读 的 信息 插入 documentation 元 素 中 。 
在 使 用 WSDL 自 动 处 理 之 前 ， 可 以 通过 stub 编 译 器 将 该 信息 删除 。 

WSDL 的 用 途 ”直接 地 或 间接 地 通过 UDDI 等 目录 服务 ， 客户 和 服务 器 可 以 使 用 URI 访 问 完整 
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的 WSDL 文 档 。 有 很 多 工具 可 以 通过 图 形 用 户 界面 提供 的 信息 生成 WSDL， 从 而 避免 了 用 户 涉及 
WSDL 的 复杂 细节 和 结构 。 例 如 ，Web 服 务 描述 语言 的 Java 工 具 包 允许 创建 、 表 示 和 操纵 WSDL 文 
档 来 描述 服务 [WSDL4J 2003]。WSDL 定 义 还 可 以 直接 从 用 其 他 语言 写成 的 接口 定义 中 生成 ， 例 如 
前 面 19.2.1 节 中 讨论 的 Java JAX-RPC。 


19.4 Web 服 务 使 用 的 目录 服务 


客户 可 以 通过 很 多 方法 获取 服务 描述 ， 例 如 ，19.1 节 讨论 的 旅行 代理 服务 的 高 级 Web 服 务 的 提 
供 者 肯定 会 制作 一 个 网 页 宣传 这 个 服务 ， 潜 在 的 客户 将 在 查询 这 种 类 型 的 服务 时 遇 到 这 个 网 页 。 

然而 ， 任 何 计 划 将 Web 服 务 作为 其 应 用 基础 的 组 织 会 发 现 使 用 目录 服务 将 更 便于 客户 找到 服 
务 。 这 就 是 统一 目录 和 发 现 服务 (UDDI) [Bellwood et al. 2003] 的 目的 ， 它 提供 名 字 服 务 和 目录 服 
务 ( 见 9.3 节 )。 也 就 是 说 ， 可 以 通过 名 称 ( 白 页 服务 ) 或 通过 属性 (黄页 服务 ) 查找 WSDL 服 务 描 
述 。 还 可 以 直接 通过 URL 访 问 ， 这 大 大 方便 了 开发 使 用 该 服务 的 客户 程序 的 开发 人 员 。 

客户 可 以 使 用 黄页 方法 来 查找 特定 类 别 的 服务 ， 如 旅行 代理 或 书 商 ,或 者 使 用 白 页 方法 根据 
提供 服务 的 组 织 来 查找 服务 。 

数据 结构 ”支持 UDDI 的 数据 结构 旨 在 允许 上 述 所 有 访问 方式 ， 并 且 可 以 结合 任意 数量 的 用 户 
可 读 的 信息 。 数 据 以 图 19-15 所 示 的 四 种 结构 组 织 ， 每 种 结构 都 可 以 通过 称 为 key 的 标识 符 单独 访问 

805| (tModel 除 外 ，tModel 可 以 通过 URL 访 问 )。 





图 19-15 主要 的 UDDI 数 据 结 构 


businessEntity: 描述 提供 这 些 Web 服 务 的 组 织 ， 给 出 其 名 称 、 地 址 和 行为 等 。 

businessService: 存储 Web 服 务 的 实例 集合 的 有 关 信息 ， 如 名 称 和 目的 描述 ， 前 面 的 旅行 代理 
或 书 商 就 是 一 个 例子 。 

bindingTemplate: 存放 Web 服 务实 例 的 地 址 和 对 服务 描述 的 引用 。 

tModel: 存放 服务 描述 ， 通 常 是 WwWSDL 文 档 ， 存 储 在 数据 库 外 并 且 通 过 URL 访 问 。 

查找 UDDI 基 于 以 下 两 个 查询 操作 集 提供 查找 服务 的 API: 

。get_xxx 操 作 集 包括 get_BusinessDetail、get_ServiceDetail、 get_bindingDetail 和 

get_tModelDetail。 这 些 操作 根据 给 定 的 键 检索 实体 。 

。find_xxx 操 作 集 包括 find_business、find_service、find_binding 和 find_tModel。 这 些 操作 检索 

匹配 特定 搜索 标准 的 实体 集 ， 并 给 出 名 称 、 描 述 、 键 和 URL 的 摘要 。 

因此 ， 拥 有 某 个 键 值 的 客户 可 以 使 用 get_xxx 操 作 直接 检索 相应 实体 。 其 他 客户 可 以 通过 浏览 
来 辅助 查找 一 一 开始 时 找到 一 个 较 大 的 结果 集 ， 然 后 逐渐 缩小 搜索 范围 。 例 如 ， 可 以 首先 使 用 
find_business 操 作 来 获得 包含 有 关 匹 配 提供 者 的 信息 摘要 的 列表 。 从 摘要 中 ， 用 户 可 以 通过 匹配 所 
需 服务 的 类 型 ， 使 用 find_service 操 作 来 缩小 搜索 范围 。 在 这 两 种 情况 下 ， 将 会 找到 合适 的 

bindingTemplate 的 键 ， 并 找到 一 个 URL 来 检索 合适 的 服务 的 WSDL 文 档 。 
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另外 ，UDDI 提 供 了 通知 /订阅 接口 。 通 过 该 接口 ， 客 户 可 以 在 UDDI 注 册 表 中 注册 感 兴趣 的 实 
体 集 ， 并 以 同步 或 异步 方式 获得 变更 通知 。 

发 布 UDDI 提 供 了 一 个 接口 用 来 发 布 和 更 新 Web 服 务 的 信息 。 当 一 个 数据 结构 ( 见 图 19-5) 第 
一 次 在 某 个 UDDI 服 务 器 上 发 布 时 ， 该 结构 获得 一 个 URI 形 式 的 键 ， 例 如 uddi:cdk4.net:213， 并 且 该 
服务 器 成 为 其 所 有 者 。 

注册 处 ”UDDI 服 务 基于 注册 处 中 存储 的 复制 数据 。UDDI 注 册 处 由 一 个 或 多 个 UDDI 服 务 器 组 
成 ， 每 个 服务 器 都 有 相同 数据 集 的 副本 。 数 据 将 在 注册 处 的 成 员 间 复制 。 每 一 个 成 员 都 可 以 响应 
查询 并 发 布 信息 。 对 某 个 数据 结构 的 更 改 必须 提交 到 其 所 有 者 ， 也 就 是 该 结构 第 一 次 发 布 时 所 在 
的 服务 器 。 所 有 者 可 以 将 所 有 权 传 给 同一 注册 处 的 其 他 UDDI 服 务 器 。 

复制 模式 : 注册 处 的 成 员 按照 如 下 方式 相互 传播 数据 结构 的 副本 : 进行 了 变更 的 服务 器 通知 
注册 处 的 其 他 服务 器 ， 然 后 请 求 做 出 更 改 。 使 用 一 个 向 量 时 间 惟 表 来 确定 应 传播 并 应 用 的 更 改 。 
与 其 他 使 用 向 量 时 间 蕉 的 复制 模式 〈 如 15.4.1 节 的 Gossip 或 15.4.3 节 的 Coda) 相 比 ， 这 个 模式 十 分 
简单 ， 因 为 : 

1) 对 某 个 数据 结构 的 所 有 更 改 都 在 同一 个 服务 器 上 进行 。 

2) 来 自 某 个 服务 器 的 更 新 按 师 序 被 其 他 成 员 接收 ， 但 是 不 同 服务 器 所 做 的 更 新 之 间 不 存在 特 
定 的 顺序 。 

服务 器 之 间 的 交互 : 如 上 所 述 ， 服 务 器 之 间 通 过 交互 来 完成 复制 。 还 可 以 通过 交互 来 传递 数 
据 结构 的 所 有 权 。 然 而 ， 对 查询 操作 的 响应 由 单个 服务 器 执行 ， 而 不 需要 与 注册 处 其 他 服务 器 进 
行 任何 交互 ， 这 一 点 与 X.500 目 录 服 务 〈 见 9.5 节 ) 不 同 。 在 X.500 目 录 服 务 中 ， 数 据 被 分 布 到 服务 
跨 上 ， 服 务 器 通过 互相 协作 来 查找 与 特定 请 求 相关 的 服务 器 。 


19.5 XML 安全 性 


XML 安全 性 由 一 组 相关 的 W3C 提 出 的 用 于 签名 、 密 钢管 理 和 加 密 的 设计 组 成 。 它 用 于 因特网 
上 的 协作 ， 因 为 因特网 上 的 文档 内 容 可 能 需要 认证 或 加 密 。 通 常 ， 文 档 被 创建 、 交 换 、 存 储 ， 然 
后 再 次 交换 ， 这 其 中 很 可 能 文档 被 一 系列 不 同 用 户 修 改 。 

WS-Security[Kaler 2002] 是 另 一 种 获得 安全 性 的 方法 ， 读 方法 将 消息 完整 性 、 消 息 机 密 性 以 及 
单个 消息 的 认证 应 用 到 SOAP。 

考虑 一 个 包含 病人 病历 的 文档 ， 在 这 个 场景 中 XML 安全 性 将 十 分 有 用 。 在 本 地 医生 的 诊疗 室 
以 及 在 病人 去 过 的 不 同 的 诊所 和 医院 分 别 用 到 病历 文档 的 不 同 部 分 。 医 生 、 护 士 、 医 疗 顾问 根 据 
病情 和 治疗 方法 的 历史 记录 来 更 新 该 文档 ， 另 外 负责 预约 的 管理 人 员 以 及 提供 药品 的 药剂 师 也 将 
更 新 该 文档 。 上 面 提 到 的 不 同 角色 可 以 查看 文档 的 不 同 部 分 ， 病 人 也 可 能 查看 文档 。 将 文档 的 某 
个 部 分 (如 关于 治疗 的 建议 等 ) 归属 到 做 出 这 些 建 议 的 人 ， 并 保证 这 个 部 分 不 被 其 他 人 更 改 ， 这 
种 做 法 是 很 有 必要 的 。 

TLS 〈 即 从 前 的 SSL， 见 7.6.3 节 ) 可 以 用 于 创建 信息 通信 的 安全 通道 ， 但 它 不 能 满足 上 面 的 需 
要 。 在 通道 建立 的 过 程 中 以 及 通道 的 生命 周期 内 ，TLS 人 允许 通道 两 端的 进程 对 认证 的 需求 、 加 密 和 
密 钥 以 及 用 到 的 算法 进行 协商 。 例 如 ， 可 以 对 有 关 金 融 交 易 的 数据 进行 签名 ， 然 后 以 明文 传送 ， 
直到 需要 传送 诸如 信用 卡 信息 等 敏感 信息 时 才 应 用 加 密 。 

考虑 到 上 面 列 出 的 新 的 用 途 ， 必 须 在 文档 内 指定 安全 性 并 应 用 安全 性 ， 而 不 是 将 安全 性 作为 
将 文档 从 一 个 用 户 传送 到 另 一 个 用 户 的 通道 的 属性 。 

这 可 以 用 XML 以 及 其 他 结构 化 文档 格式 实现 ， 因 为 在 这 些 文档 格式 内 可 以 使 用 元 数据 。XML 
标记 可 以 用 于 定义 文档 中 数据 的 属性 。 特 别 是 ，XML 安 全 性 依赖 于 可 以 用 于 指示 加 密 或 签名 数据 
以 及 签名 项 的 起 止 位 置 的 新 标记 。 一 旦 将 必须 的 安全 性 应 用 到 文档 内 ， 就 可 以 将 其 发 送 到 大 量 不 


Oo 





514 条 19 间 








同 的 用 户 ， 甚 至 是 通过 组 播 的 方式 发 送 。 

基本 需求 XML 安全 性 至 少 应 该 提供 与 TLS 相 同等 级 的 保护 ， 即 

既 能 够 加 密 整 个 文档 ， 也 能 选择 文档 的 某 些 部 分 进行 加 密 : 例如 ， 考 虑 金融 交易 中 的 信息 ， 
包括 姓名 、 交 易 类 型 以 及 使 用 的 信用 卡 或 借 记 卡 的 信息 。 一 种 情况 是 ， 只 是 将 卡 的 信息 隐藏 ， 从 
而 能 够 在 解密 记录 之 前 确认 交易 。 另 一 种 情况 是 ， 将 交易 的 类 型 也 隐藏 起 来 ， 这 样 外 部 的 人 就 不 
能 分 辨 这 到 底 是 订单 还 是 付款 。 

既 能 够 对 整个 文档 签名 ， 也 能 够 只 选择 文档 的 某 些 部 分 签名 : 当 文 档 要 用 于 一 组 人 的 协同 
工作 时 ， 应 该 对 文档 中 的 某 些 关键 部 分 签名 ， 以 保证 这 些 部 分 由 某 个 人 做 出 修改 或 没有 做 出 更 
改 。 但 是 文档 中 可 以 有 些 部 分 能 够 在 使 用 期 间 更 改 ， 这 是 很 有 用 的 ， 这 些 部 分 不 应 该 被 签名 。 

其 他 基本 需求 、 有 时 需要 存储 文档 、 可 能 修改 文档 然后 将 其 发 送 到 许多 不 同 的 接收 者 ， 这 一 过 
程 产生 了 新 的 需求 : 

在 已 签名 的 文档 上 增加 内 容 并 对 结果 签名 : 例如 ，Alice 对 一 个 文档 签名 并 将 其 传 给 Bob，Bob 
通过 对 其 添加 -一 个 标记 来 证 明 Alice 的 签名 ， 然 后 对 整个 文档 签名 。 

在 包含 加 密 部 分 的 文档 上 增加 内 容 并 对 新 版 本 文档 的 菜 个 部 分 加 密 ， 其 中 可 能 包含 某 些 已 加 
密 的 部 分 。 

授权 不 同 的 用 户 来 查看 文档 的 不 同 部 分 : 在 病历 的 例子 中 ， 调 查 人 员 可 以 查看 医疗 记录 的 某 
个 特定 部 分 ， 管 理 人 员 可 以 查看 个 人 信息 ， 医 生 可 以 查看 这 两 个 部 分 。 

XML 记号 的 灵活 性 和 结构 化 能 力 使 得 它 能 满足 上 述 所 有 的 需求 ， 不 需要 对 满足 基本 需求 的 机 
制 做 任何 增加 。 

算法 需求 ”XML 安全 文档 在 考虑 谁 将 访问 文档 之 前 已 经 进行 了 签名 和 加 密 。 如 果 没 有 涉及 文 
档 的 创作 者 ， 就 不 可 能 对 协议 以 及 是 否 使 用 验证 或 加 窗 进 行 协商 。 因 此 : 

标准 应 该 指定 一 帮 在 任何 XML 的 安全 性 实现 中 都 提供 的 算法 : 至 少 应 该 强制 提供 一 个 加 密 算 
法 和 签名 算法 ， 从 而 实现 最 大 可 能 的 互 操作 性 。 应 该 尽 可 能 少 的 提供 其 他 可 选 的 算法 。 

用 于 特定 文档 的 加 密 和 认证 的 算法 必须 从 这 一 套 算 法 中 选择 ， 使 用 的 算法 的 名 称 必须 在 XML 
文档 自身 内 引用 : 如果 文档 使 用 的 环境 不 可 预测 ， 则 必须 使 用 一 个 所 需 的 协议 。 

XML 安全 性 定义 了 元 素 名 字 ， 这 些 名 字 可 以 用 于 指定 签名 或 加 密 所 用 的 算法 的 URI。 因 此 能 够 
在 相同 的 XML 文档 内 选择 多 种 算法 ， 指 定 算法 的 元 素 通常 敬 套 在 包含 签名 信息 或 加 密 数据 的 元 素 内 。 

查找 密 钥 的 需求 ” 当 创 建文 档 以 及 每 一 次 更 新 文档 时 ， 都 必须 选择 合适 的 密 钥 ， 而 不 必 与 以 后 
可 能 访问 该 文档 的 人 进行 任何 协商 。 这 引发 了 以 下 需求 : 

帮助 安全 文档 的 用 户 查找 必需 的 帘 钥 : 例如 ， 包 括 签名 数据 的 文档 应 该 包含 用 来 验证 签名 的 
公 钥 信息 ， 如 可 以 用 于 获取 密 钥 的 名 称 ， 或 者 一 个 证 书 。KeyInfo 元 素 可 以 用 于 此 目的。 

使 协作 用 户 能 够 彼此 帮助 查找 害 钥 : 假如 KeyInfo 元 素 没 有 以 加 密 方 式 绑 定 到 签名 上 ， 则 应 在 
不 破坏 数字 签名 的 情况 下 添加 信息 。 例 如 ，Alice 对 一 个 文档 签名 后 将 其 发 送 给 Bob ， 该 文档 中 包 
含 一 个 仅 指定 密 钥 的 名 称 的 Keyinfo 元 素 。 当 Bob 收 到 文档 时 ， 他 检索 验证 签名 所 用 的 信息 并 在 将 
文档 发 送 到 Carl 时 将 这 些 信息 添加 到 KeyInfo 元 素 中 。 

Keyinfo 元 素 XML 安全 性 指定 了 一 个 Keylnfo 元 素 ， 指 示 用 于 验证 签名 或 解密 某 些 数据 的 密 钥 。 
例如 ， 它 可 以 包括 证 书 、 密 钥 的 名 称 或 密 钥 协 定 算法 。 其 使 用 是 可 选 的 ; 签名 者 可 能 不 想 向 文档 的 
访问 者 透漏 任何 密 钥 信 息 ， 而 在 某 些 情况 下 ， 使 用 XML 安全 性 的 应 用 程序 可 能 有 权 访 问 所 用 的 密 钥 。 

规范 的 XML ”其 些 应 用 程序 可 能 会 做 一 些 对 XML 文档 的 实际 信息 内 容 没有 影响 的 重 改 ， 这 是 
因为 有 多 种 不 同 的 方式 来 表示 逻辑 上 相同 的 XML 文档 。 例 如 ， 属 性 的 顺序 可 能 不 同 ， 可 能 使 用 不 
同 的 字符 编码 ， 但 信息 内 容 是 等 价 的 。 规 范 的 XML[www.w3.org X] 旨 在 用 于 数字 签名 ， 而 数字 签 
名 则 用 来 保证 文档 的 信息 内 容 不 被 更 改 。 在 签名 前 ， 将 XML 元 素 规范 化 ， 并 将 规范 化 算法 的 名 称 
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与 签名 一 起 存储 起 来 。 这 样 可 以 保证 在 验证 签名 时 使 用 相同 的 算法 。 

规范 形式 是 将 XML 以 比特 流 的 形式 进行 标准 的 序列 化 。 它 添加 了 默认 属性 并 去 除了 多 余 的 模 
式 ， 并 在 每 个 元 素 中 将 属性 和 模式 声明 以 词典 顺序 排列 。 它 使 用 了 标准 的 换行 形式 ， 字 符 使 用 
UTF-8 编 码 方案 。 任 意 两 个 等 价 的 XML 文档 都 具有 相同 的 规范 化 形式 。 

当 对 XML 文档 的 一 个 子 集 (如 -个 元 素 ) 进行 规范 化 时 ， 规 范 化 形式 应 包括 祖先 上 下 文 ， 即 
所 声明 的 名 字 空 间 和 属性 的 值 。 因 此 ， 在 规范 的 XML 与 数字 签名 一 起 使 用 时 ， 如 果 将 元 素 置 于 不 
同 的 上 下 文中 ， 对 元 素 签名 的 验证 将 不 会 通过 。 

该 算法 的 一 个 变种 称 为 互 斥 的 规范 XML， 它 忽略 序列 化 的 上 下文 。 如 果 应 用 程序 想 要 某 个 签 
名 元 素 能 在 不 同 的 上 下 文中 使 用 ， 则 可 以 使 用 该 算法 。 

以 XML 形式 表示 的 数字 签名 的 使 用 ”XML 形式 的 数字 签名 规约 [www.w3.org XII] 是 W3C 推 荐 
标准 ， 它 定义 了 新 的 XML 元 素 类 型 来 保存 签名 、 算 法 的 名 称 、 密 钥 和 对 签名 信息 的 引用 。 该 规范 
中 提供 的 名 称 是 按照 XML 签 名 模式 定义 的 ， 包 括 元 素 Signature、SignatureValue 、SignedInfo 和 
Keyinfo。 图 19-16 显 示 了 XMLEL 签 名 的 实现 中 必须 包含 的 算法 。 














算法 类 型 算法 名 称 是 否 必需 参考 

消息 摘要 SHA-l 必需 7.4.3 节 

编 而 base64 必需 1Freed and Borenstein 1996| 
签名 使 用 SHA-1 的 DSA 必需 [NIST 1994] 

〈 非 对 称 ) 使 用 SHA-1 的 RSA 推荐 7.3.2 节 

MAC 签名 HMAC-SHA-! 必需 7.4.2 节 和 Krawczyk 等 119971 
(对 称 ) 

规范 性 规范 XML 必需 “规范 的 XML” 部 分 





图 19-16 XML 签名 所 需 的 算法 


密 钥 管理 服务 XML 密 钥 管理 服务 的 规约 [www.w3.org XIIH] 包 含 用 于 分 发 和 注册 XML 签名 使 
用 的 公 钼 的 协议 。 虽 然 不 需要 任何 公 钥 基础 结构 ， 但 该 服务 仍然 可 以 与 现 有 的 公 钥 基 础 结构 兼容 ， 
如 X.509 证 书 〈 见 7.4.4 节 )、SPKI (简单 公 钥 基 础 结构 ， 见 7.4.4 节 ) 或 PGP 密 钥 标 识 符 (很 好 的 私 
密 性 ， 见 7.5.2 节 ) 。 

客户 可 以 使 用 该 服务 查找 某 个 人 的 公 钥 。 例 如 ， 如 果 Alice 想 给 Bob 发 送 一 封 加 密 的 电子 邮件 ， 
她 可 以 使 用 该 服务 来 获得 Bob 的 公 钥 。 另 一 个 例子 是 ，Bob 从 Alice 那 里 收 到 一 个 签名 文档 ， 访 文档 
包含 Alice 的 X.509 证 书 ， 那 么 Bob 将 请 求 密 钥 信息 服务 来 获取 公 钥 。 

XML 加 密 [www.w3.org XIV] 中 定义 了 XML 形式 的 加 密 标 准 ， 它 是 W3C 推 荐 标准 ， 定 义 了 用 
XML 表示 加 密 数 据 的 方式 ， 也 定义 了 加 密 和 解密 的 过 程 。 它 引入 了 EncryptedData 元 素来 包含 加 密 
数据 部 分 。 

图 19-17 指 定 了 应 该 包含 在 XML 加 密 的 实现 中 的 加 密 算法 。 块 密码 算法 用 于 加 密 数据 ，base64 
编码 在 XML 中 用 来 表示 数字 签名 和 加 密 数 据 。 密 钥 传输 算法 是 用 于 加 密 以 及 解密 密 钥 本 身 的 公 铀 
加 密 算法 。 

对 称 密 钥 包 装 算法 是 共享 密 钥 加 密 算法 ， 用 于 通过 另 一 个 密 钥 来 加 密 和 解密 对 称 密 钥 。 如 果 
密 钥 包含 在 KeyInfo 元 素 中 ， 则 可 以 使 用 该 算法 。 

密 钥 协定 算法 允许 从 一 对 公 钼 的 计算 结果 得 到 一 个 共享 的 私 钥 。 车 应 用 程序 想 不 进 行 任何 交 
换 就 共享 密 钥 ， 则 可 以 使 用 该 算法 。 它 不 适用 于 XML 安全 系统 自身 。 
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算法 名 称 
块 密码 TRIPLEDES 必需 7.3.1 节 
AES-128, AES-256 
AES-192 
编码 base64 必需 [Freed and Borenstein 1996] 
密 钥 传输 RSA-v1.5 必需 7.3.2 节 





RSA-OAEP [Kaliski and Staddon1998] 
对 称 密 钥 包装 TRIPLEDES KeyWrap 必需 [Housley 2002] 
(由 共享 密 钥 签名 ) AES-128 KeyWrap 
, AES-256 KeyWrap 
AES-192 KeyWrap 
密 钥 协定 Diffie-Hellman [Rescorla, 1999] 


图 19-17 加 密 所 需 的 算法 (还 需要 图 19-16 中 的 算法 ) 
19.6 ”Web 服务 的 协作 


SOAP 基 础 结构 支持 客户 和 服务 器 之 间 的 单个 请 求 /应 答 交互 。 然 而 ,许多 有 用 的 应 用 程序 往 
往 涉及 很 多 请 求 ， 必 须 以 特定 顺序 处 理 。 例 如 ， 在 订 机 票 时 ， 在 进行 预定 之 前 必须 收集 价格 和 剩 
余 机 票 的 信息 。 当 用 户 通过 浏览 器 与 网 页 交互 时 ， 比 如 订 机 票 或 在 拍卖 中 竞价 ， 浏 览 器 提供 的 接 
口 根据 服务 器 提供 的 信息 来 控制 操作 执行 的 顺序 。 

然而 ， 如 果 服 务 是 一 个 负责 预定 的 Web 服 务 ， 类 似 于 图 19-2 显 示 的 旅行 代理 服务 ， 那 么 在 该 
Web 服 务 与 其 他 执行 汽车 租赁 、 酒 店 预订 和 机 票 预定 等 的 服务 交互 时 ， 需 要 按照 一 个 合适 的 描述 
来 工作 。 图 19-18 给 出 了 这 样 一 个 描述 。 


| 客户 向 旅行 代理 服务 请 求 有 关 -一 组 服务 的 信息 ， 如 航班 汽车 租赁 和 酒店 舌 订 
2. 旅行 代理 服务 收集 价格 和 可 用 信息 并 将 其 发 送 给 客户 ， 客 户 代表 用 户 选择 以 下 一 种 动作 : 
(a) 改进 查询 ， 可 能 涉及 更 多 提供 者 ， 从 而 获得 更 多 信息 ， 然 后 重复 步骤 2。 
(b) 做 出 预定 。 
(c) 退出 。 
3. 客户 请 求 预定 ， 旅 行 代理 服务 检查 是 否 可 以 预订 。 
4. 要 么 所 有 服务 都 可 以 预订 ， 
要 么 对 于 不 可 用 的 服务 ， 
要 么 向 返回 步骤 3 的 客户 提供 替代 服务 。 
要 么 客户 返回 步骤 1 。 














5. 交纳 定金 。 

6. 作为 确认 ， 给 客户 个 预定 号 。 

7. 在 最 后 付款 前 这 段 时 间 中 ， 客 户 可 修改 或 取消 预定 。 
图 19-18 旅行 代理 场景 


这 些 例子 阐述 了 在 与 其 他 Web 服 务 进行 交互 时 ， 需 要 给 作为 客户 的 Web 服 务 提供 一 种 要 遵循 的 
协议 的 描述 。 但 在 服务 器 接收 和 响应 多 个 客户 的 请 求 时 ， 还 存在 服务 器 的 数据 保持 一 致 性 的 问题 。 
第 13 章 和 第 14 章 讨论 了 事务 ， 并 通过 一 系列 银行 事务 阑 述 了 这 个 问题 。 作 为 一 个 简单 的 例子 ， 在 
两 个 银行 账户 之 间 转 账 时 ， 一 - 致 性 要 求 向 一 个 账户 存 钱 和 从 另 一 个 账户 取 钱 这 两 个 操作 必须 都 执 
行 。 第 14 章 介绍 了 两 阶段 提交 协议 ， 协 同 服务 器 使 用 该 协议 来 确保 事务 的 一 致 性 。 

在 某 些 情况 下 ， 原 子 事务 能 够 满足 使 用 Web 服 务 的 应 用 程序 的 需求 。 然 而 ， 诸 如 旅行 代理 这 样 
的 活动 需要 花费 很 长 时 间 才 能 完成 ， 并 且 由 于 要 在 很 长 时 间 内 锁定 资源 ， 因 此 使 用 两 阶段 提交 协议 
来 执行 这 些 活动 是 很 不 实际 的 。 一 种 可 选 的 方案 是 使 用 更 灵活 的 协议 ， 在 该 协议 中 每 个 参与 者 在 出 
现时 都 对 持久 性 状态 做 出 更 改 。 在 发 生 故 障 的 情况 下 ， 使 用 应 用 程序 级 协议 来 撤销 这 些 操作 。 
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在 传统 的 中 间 件 中 ， 基 础 结构 提供 了 一 个 简单 的 请 求 /应 答 协 议 ， 人 允许 将 事务 、 持 久 性 和 安全 
性 等 服务 作为 单独 的 高 级 服务 来 实现 ， 以 便 在 需要 时 可 以 使 用 这 些 服务 。 对 Web 服 务 来 说 也 是 这 
样 ，W3C 和 其 他 组 织 已 经 在 定义 更 高 级 的 服务 方面 做 出 了 许多 。 

在 Web 服 务 协调 的 通用 模型 方面 已 经 取得 了 一 些 成 果 ， 该 模型 类 似 于 14.2 节 讨论 的 分 布 式 事务 
模型 。 在 分 布 式 事务 模型 中 有 协调 者 和 参与 者 角色 ， 这 些 角色 能 够 执行 特定 的 协议 ， 如 执行 分 布 
式 事务 。Langworthy[2004] 描 述 了 这 项 称 为 WS-Coordination 的 工作 。 该 小 组 还 给 出 了 事务 如 何在 
该 模型 中 得 到 执行 的 说 明 。 若 要 透彻 研究 Web 服 务 协 调 协议 ， 请 参见 Alonso 等 [2004]。 

在 本 节 的 剩余 部 分 里 ， 我 们 给 出 了 Web 服 务 编排 的 思想 。 考 虑 这 样 一 个 事实 ， 通过 工作 在 同 
一 个 任务 (如 旅行 代理 情况 ) 中 的 Web 服 务 对 之 闻 的 交互 ， 可 以 描述 所 有 可 能 的 有 效 路 径 。 如 果 
存在 这 样 一 个 描述 ， 则 可 以 用 它 来 协调 共同 任务 。 它 还 可 以 用 作 服 务 的 新 实例 (如 想 加 入 协作 的 
航班 预定 服务 ) 要 遵循 的 规范 。 

W3C 使 用 术语 编排 来 表示 基于 WSDL 的 用 来 定义 协调 的 语言 。 例 如 ， 该 语言 可 以 指定 参与 者 
之 间 交 换 信 息 所 依照 的 顺序 和 条 件 方面 的 限制 。 编排 用 于 提供 一 组 交互 的 全 局 描述 ， 显 未 每 个 参 
与 者 的 行为 ， 从 而 达到 增强 互 操作 性 的 日 的 。 

编排 的 需求 ”编排 用 于 支持 Web 服 务 之 间 的 交互 ， 这 些 Web 服 务 通常 由 不 同 的 公司 和 组 织 来 管 
理 。 一 个 涉及 多 个 Web 服 务 和 客户 的 协作 应 按照 参与 者 之 间 的 一 组 可 观测 的 交互 来 描述 。 一 个 描 
述 可 以 看 作 参 与 者 之 间 的 契约 ， 该 描述 有 以 下 用 途 : 

* 为 想 参与 的 新 服务 生成 代码 概要 。 

。 作 为 为 新 服务 生成 测试 消息 的 基础 。 

* 促进 对 协作 达成 共识 。 

。 分 析 协 作 ， 例 如 识别 可 能 的 死 锁 情况 。 

一 组 协作 的 Web 服 务 使 用 一 个 通用 的 编排 描述 ， 这 样 应 该 能 产生 具有 更 好 互 操作 性 的 更 为 健 
壮 的 服务 。 另 外 ， 将 更 容易 开发 和 引入 新 的 服务 ， 使 得 全 部 服务 更 为 有 用 。 

[www.w3.0org XV] 上 的 W3C 工 作 草 案 文档 建议 一 种 编排 语言 应 包含 以 下 特征 ; 

。 编 排 的 层次 和 递归 组 成 结构 。 

* 为 现 有 服务 和 新 服务 增加 的 新 实例 的 能 力 。 

* 并 发 路 径 、 选 择 路 径 和 重复 编排 菜 一 部 分 的 能 力 。 

* 可 变 的 超时 时 间 一 一 例如 ， 不 同 的 预定 保存 时 间 。 

* 异常 ， 比 如 用 来 处 理 乱 序 到 达 的 消息 、 用 来 处 理 撤销 等 用 户 操作 。 

。 异 步 交 互 (回调 ) 。 

*3 引 用 传递 ， 如 允许 汽车 租赁 公司 向 银行 咨询 来 检查 用 户 的 信用 。 

* 划分 同时 发 生 的 不 同事 务 的 边界 ， 比 如 以 便 进行 恢复 。 

* 包含 可 供 人 工 阅读 的 文档 的 能 力 。 

另 一 个 W3C 工 作 草 案 文 档 [www.w3.org XV 有 DD 描述 了 一 个 基于 这 些 需 求 的 模型 。 

编排 语言 ”目的 是 生成 一 种 声明 性 的 、 基 于 XML 的 语言 ， 用 来 定义 可 以 使 用 WSDL 定 义 的 编 
排 。[www.w3.org XVID 中 报告 了 编排 定义 语言 方面 的 早期 工作 。 在 此 之 前 ， 一 些 公司 向 W3C 提 交 
了 一 个 Web 服 务 编排 接口 规范 [www.w3.org XVII] 。 


19.7 实例 研究 ， 网 格 


“网 格 ” 指 的 是 一 种 中 间 件 ， 它 使 得 文件 、 计 算 机 、 软 件 、 数 据 和 传感器 等 资源 的 大 规模 共享 
成 为 可 能 。 这 些 资源 主要 是 由 位 于 不 同 组 织 中 的 许多 用 户 共享 ， 他 们 通过 共享 数据 或 共享 计算 能 
力 来 协作 解决 一 些 需 要 大 量 计算 机 才能 解决 的 问题 。 这 些 资源 需要 得 到 异 构 的 计算 机 硬件 、 操 作 
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系统 、 编 程 语 言 和 应 用 程序 的 支持 。 为 了 确保 客户 能 够 获得 所 需要 的 资源 并 且 服 务 能 提供 这 些 资 
源 ， 需 要 进行 适当 的 管理 来 协调 对 这 些 资 源 的 使 用 。 在 某 些 情况 下 ， 需 要 复杂 的 安全 技术 来 保证 
在 该 类 型 的 环境 下 正确 地 使 用 资源 。 

19.7.1 节 将 介绍 World-Wide Telescope， 它 是 一 个 数据 密集 型 应 用 ， 是 网 格 所 解决 的 问题 的 一 
个 例子 。 它 阑 述 了 一 种 典型 的 共享 和 用 户 地 理 分 布 的 模式 ， 从 中 可 以 得 到 科学 应 用 的 特征 ， 这 些 
特征 表明 了 网 格 的 一 系列 需求 〈( 见 19.7.2 节 ) 。 我 们 利用 这 些 需 求 来 推动 体系 结构 的 发 展 ， 这 种 体 
系 结构 规定 了 运行 在 Web 服 务 之 上 的 网 格 ( 见 19.7.3 节 )。 最 后 一 节 将 介绍 Globus 工 具 包 ， 它 是 网 
格 体系 结构 的 一 种 实现 。 


19.7.1 World-Wide Telescope 一 一 一 种 网 格 应 用 


World-Wide Telescope 项 目 关注 天 文 团体 共享 的 数据 资源 的 部 署 ， 在 Szalay 和 Gray[2004]、 
Szalay 和 Gray[2001] 以 及 Gray 和 Szalay [2002] 的 著作 中 介绍 了 这 个 项 目 。 天 文 数据 由 观测 档案 组 成 ， 
每 一 个 观测 文档 包含 一 段 特 定时 间 、 一 段 电 磁 波 频谱 (光学 的 、X 射 线 的 、 无 线 电 的 ) 和 天 空 的 一 
片区 域 。 这 些 观测 数据 是 由 分 布 在 世界 各 地 的 不 同 设备 获得 的 。 

有 关 天 文学 家 如 何 共 享 数据 的 研究 对 于 得 出 典型 的 网 格 应 用 的 特征 是 非常 有 用 的 ， 这 是 因为 天 
文学 家 可 以 彼此 自由 地 共享 他 们 的 成 果 ， 所 以 可 以 忽略 安全 的 问题 ， 从 而 简化 了 这 个 问题 的 讨论 。 

天 文学 家 需要 整合 同一 天 体 对 象 的 多 个 不 同时 间 段 和 多 段 频谱 的 数据 来 进行 研究 。 能 够 使 用 
独立 的 观测 数据 对 研究 十 分 重要 。 可 视 化 可 以 使 天 文学 家 能 够 查看 数据 的 2 维 或 3 维 散 点 图 。 

数据 收集 小 组 将 数据 存储 在 大 容量 存储 设备 中 (现在 是 以 TB 计 )， 这 样 每 个 数据 收集 小 组 都 可 
以 对 其 进行 逻辑 管理 。 用 于 收集 数据 的 设备 服从 摩尔 定律 ， 因 此 收集 到 的 数据 以 指数 方式 增长 。 
在 收集 数据 时 ， 使 用 流水 线 方 式 分 析 数 据 并 存储 得 到 的 数据 供 全 世界 天 文学 家 使 用 。 但 在 其 他 研 
究 人 员 使 用 数据 之 前 ， 在 某 一 领域 的 科学 家 需要 协商 一 种 方法 来 标记 数据 。 

Szalay 和 Gray[2004] 指 出 ， 在 过 去 ， 科 学 研究 数据 由 其 作者 写成 论文 发 布 在 期 刊 上 ， 并 保存 在 
图 书馆 中 。 但 是 现在 ， 数 据 的 数量 过 于 巨大 ， 出 版 物 无 法 包含 。 这 种 情况 不 仅 在 天 文学 领域 出 现 ， 
粒子 物理 、 基 因 和 生物 研究 领域 也 存在 这 个 问题 。 现 在 ， 科 学 家 通常 是 共同 协作 ， 花 费 5~ 10 年 时 
间 做 实验 ， 然 后 将 生成 的 数据 发 布 到 基于 网 络 的 数据 库 中 。 因 此 ， 研 究 该 项 目的 科学 家 同 作者 一 
样 成 了 数据 发 布 人 员 和 管理 人 员 。 

这 个 额外 的 职责 要 求 任何 管理 数据 库 的 组 织 使 其 他 研究 人 员 能 访问 存储 设备 。 这 意味 着 在 原 
有 的 数据 分 析 的 基础 之 上 要 增加 了 不 少 花费 。 要 使 这 种 共享 成 为 可 能 ， 就 需要 元 数据 来 描述 数据 
收集 时 间 、 天 空 区 域 和 使 用 的 设备 等 原始 数据 。 另 外 ， 导 出 数据 需要 跟 描 述 处 理 数据 的 流水 线 的 
参数 的 元 数据 一 起 存放 。 

导出 数据 的 计算 需要 大 量 的 计算 。 通 常 在 技术 改进 时 需要 重新 进行 计算 。 所 有 这 些 对 于 拥有 
数据 的 组 织 而 言 都 是 不 小 的 花费 。 

World-Wide Telescope 的 目的 在 于 将 全 世界 的 天 文 数据 整合 到 一 个 巨大 的 数据 库 中 ， 这 个 存储 
设备 包括 天 文学 文献 、 图 像 、 原 始 数据 、 导 出 数据 集 和 模拟 数据 。 


19.7.2 数据 密集 型 科学 应 用 的 特征 

在 本 节 中 ， 我 们 通过 对 World-Wide Telescope 的 研究 给 出 类 似 的 科学 应 用 的 特征 ， 然 后 列 出 支 
持 这 些 特征 的 需求 。 特 征 如 下 : 

* 数据 通过 科学 设备 收集 。 

* 数据 存储 于 一 系列 不 同 站 点 的 存储 设备 中 ， 这 些 站 点 可 以 位 于 世界 的 任何 地 方 。 

"数据 由 不 同 组 织 的 科学 家 小 组 管理 。 

* 设备 生成 的 原始 数据 十 分 巨大 且 不 断 增长 (以 TB 或 PB 计 )。 
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。 使 用 计算 机 程序 来 分 析 和 总 结 原始 数据 ， 如 对 表示 天 体 对 象 的 原始 数据 进行 分 类 、 校 准 和 

编目 。 

世界 各 地 的 科学 家 可 以 通过 因特网 访问 所 有 的 这 些 存 储 设备 ， 他 们 能 够 获得 不 同 地 点 的 不 同 
设备 在 不 同时 间 采 集 的 数据 。 然 而 ， 一 个 在 其 研究 中 使 用 这 些 数 据 的 科学 家 仅仅 对 数据 库 中 数据 
库 中 对 象 的 一 个 子 集 感 兴趣 。 

考虑 到 所 需 的 传输 时 间 和 本 地 的 磁盘 空间 ， 数 据 库 中 海量 的 数据 如 果 不 经 过 处 理 以 抽取 感 兴 
趣 的 对 象 就 传输 给 用 户 是 不 现实 的 。 因 此 在 这 种 环境 下 不 适合 使 用 ftp 或 Web 访 问 。 应 该 在 收集 原 
始 数据 并 将 其 存储 在 数据 库 的 位 置 对 其 进行 处 理 。 当 科学 家 对 某 一 数据 进行 查询 时 ， 可 以 对 每 一 
个 数据 库 中 的 数据 进行 分 析 。 如 果 需 要 ， 则 在 返回 远程 查询 结果 之 前 生成 可 视 化 图 形 。 

数据 在 不 同 的 地 点 被 处 理 这 一 事实 已 经 为 我 们 提供 了 并 行 性 ， 从 而 有 效 地 分 割 了 要 处 理 的 巨 
大 任务 。 

从 上 面 的 特征 可 以 获得 以 下 需求 ; 

Ri1: 对 资源 的 远程 访问 ， 即 远程 访问 所 需 的 存储 设备 中 的 信息 。 

R2: 可 以 在 收集 数据 时 ， 也 可 以 在 响应 请 求 时 ， 在 存储 和 管理 数据 的 站 点 上 处 理 数据 。 一 个 
典型 的 查询 可 以 得 到 基于 不 同 设备 在 不 同时 间 记 录 的 某 一 区 域 的 天 空 的 数据 的 可 视 化 表现 。 这 将 
涉及 从 每 个 大 规模 的 存储 设备 中 选择 少量 的 数据 。 

R3: 数据 存储 的 资源 管理 器 应 该 能 够 动态 地 创建 服务 实例 来 处 理 所 需 的 数据 的 特定 部 分 ， 正 
如 在 分 布 式 对 象 模型 中 ， 每 当 需 要 伺服 器 来 处 理 服务 管理 的 不 同 资源 时 就 创建 它 。 

R4: 需要 使 用 元 数据 来 描述 : 

“存储 设备 中 数据 的 特征 ， 比 如 对 于 天 文学 ， 这 些 特征 有 : 天 空 区 域 、 数 据 收集 的 日 期 和 时 间 

以 及 使 用 的 设备 。 

* 管理 这 些 数据 的 服务 的 特征 ， 如 其 花费 、 地 理 位 置 、 发 布 者 或 负载 、 可 用 的 空间 。 

R5: 基于 上 述 元 数据 的 目录 服务 。 

R6:， 考虑 到 资源 通常 是 由 生成 数据 的 组 织 管理 ， 并 且 需 要 定量 分 配对 这 些 资源 的 访问 ， 所 以 
需要 管理 查询 、 数 据 传输 和 提前 预订 资源 的 软件 。 

Web 服 务 提供 一 种 简单 的 方法 允许 科学 家 对 远程 存储 设备 中 的 数据 进行 操作 ， 从 而 满足 了 前 
两 个 需求 。 这 需要 每 个 应 用 程序 都 提供 一 个 服务 描述 ， 该 服务 描述 包括 一 系列 访问 其 数据 的 方法 。 
网 格 中 间 件 处 理 剩 下 的 需求 。 

虽然 World-Wide Telescope 是 一 个 典型 的 数据 密集 型 应 用 ， 但 网 格 还 可 用 于 计算 密集 型 应 用 ， 
如 图 像 分 析 和 19.7.4 节 中 讨论 的 其 他 例子 。 当 在 网 格 上 部 署 计算 密集 型 应 用 时 ， 资 源 管理 将 关注 于 
分 配 计 算 资 源 和 平衡 负载 。 

最 后 ， 许 多 网 格 应 用 程序 还 需要 安全 性 。 例 如 ， 用 于 医学 研究 和 商业 应 用 的 网 格 。 即 使 在 数 
据 的 私密 性 不 是 一 个 问题 ， 建 立 数据 创建 者 的 身份 标识 也 是 十 分 重要 的 。 


19.7.3 开放 的 网 格 服务 体系 结构 


开放 的 网 格 服务 体系 结构 (OGSA) 是 基于 网 格 应 用 的 一 个 标准 [Foster et al. 2002 and 2001]。 
它 提供 了 一 个 可 以 满足 以 上 需求 的 框架 。 它 基于 Web 服 务 ， 通 过 特定 于 应 用 的 网 格 服务 管理 资源 。 
19.7.5 节 讨论 的 Globus 工 具 包 实现 了 这 种 体系 结构 。 

图 19-19 给 出 了 网 格 体系 结构 的 主要 组 件 ， 它 阐述 了 应 用 级 网 格 服务 的 两 个 重要 方面 ， 

1) 它们 是 实现 了 标准 的 网 格 服务 接口 以 及 应 用 特定 接口 的 web 服务 ， 特 别 是 实现 了 下 列 网 格 
服务 接口 和 附加 功能 : 

* 包含 有 关 服 务 元 数据 的 数据 集 ( 称 为 服务 数据 ) 的 接口 。 元 数据 可 以 包括 终止 时 间 ， 也 可 以 
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包括 需求 R4 中 提 到 的 任何 项 ， 以 及 诸如 最 近 结果 集 或 平均 值 的 应 用 程序 值 。 


和 下 应 用 特定 的 接口 


”1 标准 网 格 服务 接口 
i 如 GridService 
Factory 






六 Web 服 务 a 
图 19-19 开放 的 网 格 服务 体系 结构 


。 服 务 运 行 的 上 下 文 必须 提供 一 个 工厂 ， 该 工厂 能 够 创建 新 的 服务 实例 并 能 够 在 时 间 耗 尽 时 终止 

这 些 实例 ， 如 需求 R3 所 示 。 工 厂 依 赖 于 OGSI 层 的 名 字 工 具 来 管理 其 创建 的 服务 实例 的 名 称 。 

2) 它们 在 Web 服 务 之 上 使 用 两 层 标 准 的 网 格 服务 ， 这 两 层 分 别称 为 OGSI 和 OGSA。OGSA 服 
务 层 包括 : 

。 目 录 服 务 : 允许 客户 软件 基于 用 目录 服务 注册 的 服务 实例 中 收集 的 元 数据 ， 选 择 满足 需要 的 

服务 实例 。 这 解决 了 需求 R5。 

。 管 理 服务 : 根据 服务 数据 中 的 信息 监控 服务 ， 以 处 理 故 障 情 况 ， 通 过 设置 服务 数据 中 的 值 来 

控制 服务 实例 的 生命 期 。 这 解决 了 需求 R6。 

。 安 全 服务 : 提供 认证 和 数据 加 密 ， 也 提供 了 单 点 登录 和 委托 。 

开放 的 网 格 服务 基础 设施 (OGSI) 层 包 括 : 

。 服 务实 例 的 命名 模式 的 实现 。 

。 标 准 服务 数据 元 素 的 定义 ， 这 必须 通过 每 个 应 用 级 网 格 服务 实例 以 及 设置 和 获得 服务 数据 元 

素 值 的 操作 来 实现 。 比 如 ， 这 些 元 素 包 括 所 支持 的 接口 的 名 称 、 用 于 创建 实例 的 工厂 的 引用 

或 终止 时 间 。 

。 用 于 创建 新 服务 实例 的 工厂 的 接口 的 定义 和 用 于 设置 服务 实例 的 终止 时 间或 删除 服务 实例 的 

操作 的 定义 。 

。 供 所 有 网 格 服务 使 用 的 故障 模型 。 

。 通 知 服务: 使 服务 成 为 有 关 服 务 数据 的 信息 发 布 者 ， 其 他 服务 成 为 订阅 者 。 

。 服 务 组 : 添加 或 删除 成 员 的 操作 ， 供 提供 服务 的 协作 小 组 使 用 。 

以 上 定义 和 服务 在 OGSI 层 的 GridServce、Factory 和 其 他 接口 中 提供 。 

开放 的 网 格 服务 基础 设施 我 们 现在 介绍 两 级 命名 模式 ， 它 将 服务 实例 的 高 级 名 称 同 低级 名 称 
联系 起 来 ， 然 后 给 出 OGSI 层 中 其 他 服务 的 更 详细 信息 。 

两 级 命名 模式 : 可 以 动态 创建 网 格 服务 。 为 满足 区 分 不 同 实例 的 需要 ， 基 础 设施 包括 一 个 命 
名 模式 ， 该 模式 为 每 一 个 实例 提供 了 一 个 长 期 的 全 局 唯一 标识 符 ， 称 为 网 格 服务 句柄 (GSH)。 在 
用 以 前 的 状态 重启 服务 的 实例 时 ， 可 以 使 用 相同 的 GSH。 

GSH 用 一 个 URI 表 示 ， 这 个 URI 可 以 映射 到 一 个 叫 作 网 格 服务 引用 (GSR) 的 短期 名 称 上 ， 
GSR 指 向 的 是 调用 的 目的 地 。 基 础 设施 包括 一 个 句柄 解析 服务 来 执行 这 个 映射 。GSR 是 一 个 结构 
依赖 于 所 使 用 的 请 求 /应 答 机 制 的 名 称 ， 例 如 ， 在 使 用 SOAP 的 情况 下 ，GSR 指 向 一 个 包含 
<service> 和 <binding> 元 素 的 WSDL 文 档 。GSR 在 其 指向 的 服务 实例 不 存在 时 变 为 无 效 。 

如 果 用 URN 来 表示 GSH， 则 可 以 在 不 同时 刻 解析 为 不 同 的 服务 实例 ， 从 而 允许 GSH 迁 移 其 至 
在 不 同 资源 处 复制 。 

服务 数据 (元 数据 ): 其 思想 是 客户 可 以 请 求 服务 的 一 个 实例 来 返回 有 关 其 当前 状态 的 信息 ， 
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例如 ， 服 务 的 能 力 、 剩 余 空 间 、 人 负载 或 当前 错误 甚至 是 最 近 的 结果 。 这 要 求 应 用 级 网 格 服务 的 每 
个 实例 都 必须 实现 最 务 数据 的 存储 并 实现 一 组 访问 服务 数据 的 操作 。 

GridService 接 口 提 供 了 一 组 标准 的 操作 ， 这 些 操作 访问 服务 支持 的 接口 的 名 称 、 服 务 数据 元 
素 的 名 称 、 创 建 该 服务 的 工厂 的 标识 、 其 GSH、GSR 及 其 终止 时 间 。 每 个 网 格 服务 都 必须 支持 
GridService 接 口 ， 还 可 以 包括 用 于 通知 或 服务 组 的 OGSI 接 口 。 

服务 创建 和 删除 : 这 一 部 分 的 基础 设施 定义 了 一 个 标准 的 Factory 接 口 ， 该 接口 指定 了 用 于 按 
需 创 建 短暂 服务 实例 的 操作 ， 其 中 使 用 了 GSH 和 GSR 对 形式 的 名 称 。 任 何 用 于 运行 应 用 级 网 格 服 
务 的 容器 都 必须 实现 Factory 接 口 。 

应 用 程序 发 送 一 个 典型 的 请 求 要 求 创 建 一 个 新 的 服务 实例 ， 并 将 其 服务 描述 和 生命 期 作为 参 
数 。 作 为 响应 ， 工 厂 创 建 一 个 新 的 服务 实例 并 将 其 注册 在 一 个 句柄 解析 服务 上 ， 最 后 向 客户 返回 
GSH 和 当前 的 GSR。 

当 服 务 的 任务 完成 或 应 创建 服务 的 客户 的 请 求 时 ， 服 务实 例 将 会 消亡 。 每 个 服务 实例 都 具有 
一 个 生命 期 ， 以 防 在 消息 丢失 的 情况 下 实例 永远 存在 下 去 。 但 实例 的 创建 者 可 以 发 送 “keep alive” 
消息 来 延长 其 生命 期 。 在 客户 失败 的 情况 下 ， 就 不 会 再 有 “keep alive” 消息 ， 服 务实 例 也 将 最 终 
中 止 。 为 提供 服务 的 自动 性 ， 一 个 实例 可 以 改变 自己 的 生命 期 。 当 服务 实例 的 生命 期 到 达 尽 头 时 ， 
其 使 用 的 所 有 资源 将 释放 。 客 户 可 以 共享 服务 实例 。 

故障 模型 ,基础 设施 定义 了 一 个 通用 的 方法 来 报告 故障 ， 所 有 OGSI 层 服务 都 使 用 这 个 方法 ， 
并 且 推 荐 应 用 级 网 格 服务 也 使 用 该 方法 。 它 定义 为 一 个 XML 模 式 ， 至 少 需要 两 个 元 素来 指定 源 服 
务 和 时 间 发 。 它 提供 可 选 的 元 素来 以 简明 的 语言 描述 故障 ， 包 括 其 原因 和 出 错 码 。 留 出 了 空间 用 
于 扩展 故障 报告 以 包含 特定 于 -- 个 OGSI 或 应 用 服务 的 信息 。 

WSDL 接 口 扩展 : 由 于 标准 的 WSDL 不 包括 用 二 定义 服务 数据 的 机 制 ，OGSI 提 供 了 对 WSDL 
的 扩展 ， 使 用 服务 描述 中 的 某 个 接口 将 服务 数据 元 素 的 名 称 和 类 型 关联 起 来 。 比 如 ， 数 据 元 素 可 
以 保存 服务 的 能 力 、 空 闲 空间 、 负 载 或 当前 错误 指示 。 

OGSA 服 务 ”高 层 服务 构建 在 OGSI 服 务 之 上 。 根 据 Foster 等 [2004] 的 研究 ， 不 同 的 开发 人 员 将 
提供 多 种 不 同 的 OGSA 服 务 来 满足 应 用 级 服务 的 特定 需求 。 他 们 列 出 了 那些 广泛 使 用 以 至 于 可 以 包 
含 在 任何 网 格 系统 中 的 组 件 ， 如 目录 服务 、 管 理 和 监控 以 及 安全 服务 。 这 些 服 务 的 标准 接口 的 可 
用 性 是 确保 不 同 实现 可 以 互相 协作 的 基础 。 在 19.7.5 节 中 ， 我 们 将 在 Globus 工 具 包 中 讨论 目录 和 安 
全 服务 。 

管理 服务 : Grid 中 的 管理 关注 的 是 任何 可 以 共享 和 使 用 的 资源 。 这 相当 于 服务 管理 ， 服 务 管 
理 关 注 的 是 安排 要 使 用 的 服务 并 监视 服务 状态 。 它 解决 的 问题 包括 任务 提交 、 提 供 某 种 质量 的 服 
务 以 及 资源 的 提前 预定 的 协定 。 这 些 可 以 通过 服务 级 别 协定 (SLA) [Hauch and Reiser 2000] 来 提 
供 ，SLA 为 资源 的 客户 端 提供 服务 类 型 的 保证 ， 爷 下 筑 尖 的 所 有 者 控 制 如 何 使 用 资源 以 及 向 客户 
公开 多 少 信息 。 

有 三 种 类 型 的 SLA: 任务 级 ， 用 于 对 某 项 活动 的 性 能 达成 共识 ， 资 源 级 ， 用 于 对 消费 资源 的 
权力 达成 共识 ， 如 通过 提前 预定 ， 绑 定 ， 用 于 对 任务 中 资源 的 使 用 达成 共识 。 


19.7.4 一 些 网 格 应 用 的 例子 


图 19-20 给 出 了 使 用 网 格 技术 的 一 些 例子 。 前 三 个 例子 具有 与 World-Wide Telescope 类 似 的 特 
征 : 数据 由 科学 设备 收集 并 将 之 存储 在 收集 站 点 。 在 例 1 中 ， 通 过 飞行 器 引擎 上 的 传感器 收集 震动 
数据 。 在 例 2 中 ， 从 测试 结构 中 收集 数据 ， 油 试 结构 很 容易 剧烈 震动 ， 可 以 模拟 地 震 。 在 例 3 中 ， 
使 用 MRI 或 CT 等 设备 来 收集 大 脑 图 像 。 在 所 有 的 情况 中 ， 随 着 测量 次 数 的 增加 ， 原 始 数据 的 量 随 
时 间 不 断 增长 。 另 外 ， 随 着 分 析 的 执行 ， 被 处 理 的 数据 也 在 不 断 增加 。 
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项 目 描述 参 “ 考 | 

1. 飞行 器 引 世 维护 : 使 用 故障 访 史 和 传感器 做 出 预测 诊断 www.cs.york ac.uk/dame 
2. 远程 呈现 : 使 用 仿真 和 测试 场所 预测 地 震 对 建筑 物 的 影响 www,neesgrid.org 
3, 生物 医学 信息 学 网 络 : 使 研究 人 员 能 够 获得 实验 及 其 结果 的 图 形 化 表示 nbcr.sdsc.edu 
4. 对 CERN 上 的 CMS 高 能 粒子 探测 器 中 的 数据 进行 分 析 ， 这 些 数据 是 全 世界 

物理 学 家 用 超过 15 年 的 时 间 收 集 到 的 www.uscms.org 
5. 通过 使 用 空闲 的 桌面 计算 机 执行 并 行 计算 ,测试 候选 药物 分 子 对 蛋白 质 | 

活动 的 影响 [Taufer et al. 2003] [Chien 2004] 
6. 通过 利用 Web 服 务 器 集群 上 的 空闲 能 力 ， 使 用 Sun Grid Engine 增 强 航空 图 像 www.globexplorer.com 
7. 蝴蝶 Grid 通 过 Globus 工 具 包 支持 因特网 上 巨大 数 日 的 玩家 之 间 的 多 玩家 游戏 www.butterfly.net 





| 8. Access Grid 支持 小 组 协作 ， 如 通过 提供 共享 工作 空间 www.accessgrid.org 








图 19-20 Foster 和 Kesselman[2004] 中 介绍 的 网 格 项 目 节选 


在 这 三 个 例子 中 ， 数 据 由 属于 不 同 组 织 的 科学 家 或 工程 师 小 组 管理 。 对 原始 数据 的 处 理 和 模 
拟 都 在 本 地 完成 ， 并 可 以 被 全 世界 的 合作 者 使 用 。 

这 些 例子 证 实 ，World-Wide Telescope 是 一 个 典型 的 数据 密集 型 应 用 。 但 是 ， 网 格 应 用 还 可 以 
用 于 计算 密集 型 应 用 程序 ， 如 : 

*。 例 4 指 的 是 位 于 CERN 的 新 探 铀 器 ， 它 将 于 2007 年 投入 运行 。 在 此 之 前 ， 许 多 物理 学 家 团队 

正在 对 探测 器 所 得 到 的 预期 结果 进行 模拟 。 这 是 一 个 计算 密集 型 应 用 ， 由 多 台 协 作 的 计算 机 

执行 。 

。 例 5 关于 虚拟 筛选 一 -测试 数 以 百 万 计 的 药物 分 子 ， 查 看 是 否 能 阻止 许多 蛋白 质 中 的 每 一 个 

蛋白 质 的 活动 。 可 以 使 用 一 组 桌面 计算 机 的 空闲 计算 能 力 来 运行 网 格 软件 。 每 台 计 算 机 测试 

某 个 药物 分 子 对 某 个 蛋白 质 的 作用 ， 从 而 并 行 执行 该 任务 。 它 使 用 空闲 的 桌面 计算 机 的 闲置 

能 力 。 

* 例 6 是 关于 图 像 分 析 的 一 个 例子 。GlobeExplorer 公 司 提供 高 质量 的 卫星 图 像 和 航空 照片 ， 这 

些 图 片 是 从 无 数 原始 照片 中 得 到 的 ， 每 张 原始 照片 都 需要 增强 。 它 使 用 了 Web 服 务 器 集群 的 

空闲 能 力 。 

例 5 和 例 6 的 一 个 共同 特征 是 使 用 空闲 计算 能 力 以 及 对 要 执行 的 任务 进行 分 割 。 它 们 可 以 与 
SETI@home 项 目 ( 见 10.1 节 ) 相 比 ， 该 项 目的 任务 是 从 射电 望远镜 数据 中 搜寻 外 星 文 明 。 通 过 使 
用 最 终 用 户 的 计算 机 的 空 闪 计算 能 力 ，SETI@home 使 用 对 等 软件 来 解决 计算 密集 型 问题 。 巨 大 的 
数据 库 被 分 割 以 便 并 行 执行 任务 。 

之 所 以 给 出 例 7 和 例 8， 是 因为 它们 阐述 了 网 格 在 科学 和 工程 领域 之 外 的 两 种 不 同 用 途 。 它 
们 都 需要 管理 分 布 式 状态 ， 在 第 一 种 情况 下 是 游戏 的 状态 ， 第 二 种 情况 中 是 共享 的 工作 空间 。 
19.7.5 Globus 工 具 包 


Globus 项 目 开始 于 1994 年 ， 其 目的 是 提供 一 种 集成 和 标准 化 科学 应 用 所 需 功能 的 软件 。 这 些 
功能 包括 目录 服务 、 安 全 性 和 资源 管理 。 第 一 个 Globus 工 具 包 在 1997 年 出 现 。 工 具 包 的 第 2 版 ( 称 
为 GT2) 中 开始 出 现 OGSA， 在 Foster 和 Kesselman[2004] 中 介绍 了 这 一 点 。 

第 3 版 出 现 于 2002 年 ， 称 之 为 GT3， 它 基于 OGSA 并 构建 于 Web 服 务 之 上 。GT3 是 由 Globus 联 
盟 (www.globus.org) 等 开发 的 ， 是 一 种 开源 软件 。 

Sandholm 和 Gawor{2003] 介 绍 了 GT3 的 内 核 。 它 包括 OGSI 层 中 的 所 有 接口 ， 并 以 Java 类 方式 实 
现 了 诸如 GridService 和 Factory 等 接口， 并且 可 以 与 JAX-RPC 兼 容 ( 见 19.2.3 节 )。 将 此 功能 添加 到 现 
有 的 Web 服 务 中 的 最 简单 的 方法 是 使 服务 的 类 成 为 OGSI 类 的 子 类 。 实 际 上 ， 可 以 对 应 用 级 的 网 格 服 
务 进行 配置 ， 使 其 包含 所 需 的 网 格 服务 功能 。 例 如 ， 可 以 按 需 增加 通知 服务 或 服务 组 操作 。 
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网 格 服务 实例 和 工厂 是 在 称 为 网 格 服务 容 器 的 运行 时 环境 中 部 署 的 。 网 格 服务 容器 在 某 些 方 
面 类 似 于 CORBA POA ( 见 20.2.2 节 )， 因 为 它 既 可 以 执行 调度 ， 又 可 以 处 理 : 

。 具 有 全 局 名 称 的 服务 实例 的 动态 创建 和 管理 。 

。 通 过 GridService 接 口中 的 FindServiceData 操 作 或 通过 通知 来 访问 服务 实例 的 状态 。 

“安全 性 ， 包 括 证 书 的 授权 、 消 息 的 签名 、 加 密 和 验证 。 

服务 实例 可 以 在 与 其 工厂 相同 的 容器 内 创建 ， 或 者 可 以 在 其 他 地 方 部 署 。 比 如 ， 一 个 容器 可 
能 基于 一 个 servlet 容 器 ( 见 19.2.3 节 )。 在 启动 容器 时 ， 服 务实 例 并 不 立即 转 为 活跃 状态 ， 直 到 第 一 
次 被 使 用 时 才 变 为 活跃 状态 。 容 器 可 以 使 空闲 的 服务 实例 (例如 通知 或 服务 小 组 使 用 的 实例 ) 变 
得 不 活跃 。 

安全 服务 “GT3 中 的 安全 服务 提供 了 对 SOAP 消 息 的 保护 。 它 基于 WS-Security[Kaler 2002]、 
XML 签 名 和 XML 加 密 ( 见 19.5 节 )。 认 证 使 用 X.509 证 书 作 为 凭证 ， 这 些 证 书 由 一 个 可 信赖 的 证 书 
颁发 机 构 以 通常 方式 提供 。 它 使 用 X.509 的 扩展 来 提供 代理 证 书 ， 这 些 代理 证 书 可 以 被 代表 用 户 的 
服务 使 用 。 

目录 服务 ”GT3 不 使 用 UDDTL， 这 是 因为 其 数据 结构 以 及 搜索 标准 包含 不 合适 的 信息 ， 比 如 ， 
有 关 协 议 的 技术 细节 ( 见 图 19-15)， 而 网 格 服务 的 客户 需要 找到 服务 实例 的 某 种 特征 。 例 如 ， 管 
理 客户 可 能 对 服务 负载 感 兴趣 ， 天 文学 家 可 能 对 数据 收集 的 时 间 、 地 点 和 方式 等 信息 感 兴 趣 。 

GT3 提 供 了 索引 服务 作为 末代 ， 索 引 服务 用 于 查找 匹配 一 组 特定 需求 的 服务 实例 。 索 引 服 务 基 
于 向 其 注册 的 一 组 服务 实例 的 服务 数据 收集 信息 。 它 可 以 使 用 FindServiceData 操 作 来 收集 信息 ， 
但 对 于 可 变 的 服务 数据 ， 则 更 适合 使 用 通知 接口 ， 以 便 在 数据 值 改变 时 通知 索引 服务 。 

索引 服务 可 以 响应 查询 ， 它 通过 执行 算法 来 决定 最 适合 某 个 客户 的 服务 实例 。 例 如 ， 该 过 程 
可 以 基于 服务 实例 使 用 的 处 理 器 类 型 、 速 度 、 支 持 的 客户 或 使 用 该 服务 实例 的 开销 。 除 了 响应 查 
询 外 ， 索 引 服 务 还 支持 通知 接口 。 

可 以 以 多 种 方式 将 几 个 索引 服务 联合 起 来 ， 以 提供 大 型 团体 使 用 的 信息 服务 。 

索引 服务 的 实现 需要 包括 容错 措施 以 处 理 各 种 情况 。 比 如 ， 一 个 服务 实例 在 没有 通知 索引 服 
务 的 情况 下 停止 运行 ， 则 索引 服务 在 其 索引 中 保存 的 将 是 过 期 数据 。 

管理 和 可 靠 的 文件 传输 服务 GT3 中 的 管理 服务 关注 的 是 监视 和 管理 容器 以 及 容器 中 的 服务 实 
例 ， 例 如 ， 监 视 当前 的 状态 或 负载 以 及 激活 与 使 实例 变 得 不 活跃 。 

考虑 到 网 格 服务 之 间 要 传输 大 量 数据 ，GT3 还 提供 了 -一 个 可 靠 文件 传输 服务 。 

未 来 与 Web 服 务 的 关系 关于 在 WS-Resource 框 架 之 下 将 OGSI 特 征集 成 到 Web 服 务 的 可 能 性 进 
行 了 一 些 讨 论 [Globus 2004]。Globus 联 盟 指出 ， 应 该 具有 在 比 网 格 应 用 更 广泛 的 环境 中 创建 服务 
实例 和 使 用 服务 状态 的 能 力 。 然 而 ， 这 种 分 布 式 对 象 方法 对 于 许多 现在 通常 作为 Web 服 务 运行 的 
松 耦 合 应 用 来 说 不 太 合适 。 


19.8 小 结 


本 章 说 明了 Web 服务 的 产生 源 于 为 不 同 组 织 之 间 的 交互 提供 基础 设施 的 需要 。 该 基础 设施 通 
常 使 用 HTTP 协 议 通过 因特网 上 在 客户 和 服务 器 之 间 传 输 消息 ， 它 使 用 URI 来 指向 资源 ， 使 用 文本 
格式 的 XML 表示 数据 和 编码 数据 。 

两 个 因素 导致 Web 服务 的 出 现 。 一 个 因素 是 : 为 了 允许 客户 程序 而 不 是 浏览 器 以 一 种 更 丰 
富 的 交互 性 访问 一 个 站 点 上 的 资源 ， 需 要 将 服务 接口 添加 到 Web 服 务 器 。 另 一 个 因素 是 希望 基于 
现 有 的 协议 在 因特网 上 提供 一 种 类 似 RPC 的 结构 。 由 此 产生 的 Web 服 务 提供 了 带 有 一 组 可 以 远程 调 
用 的 操作 的 接口 。 与 其 他 形式 的 服务 类 似 ，Web 服 务 可 以 是 另 一 个 Web 服 务 的 客户 ， 并 人 允许 一 个 
Web 服 务 集成 或 组 合 一 系列 其 他 Web 服 务 。 
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SOAP 是 Web 服 务 和 其 客户 通常 使 用 的 通信 协议 ， 它 可 以 用 于 在 客户 和 服务 器 之 间 传 送 请 求 消 
息 及 应 答 ， 这 个 过 程 既 可 以 通过 文档 的 异步 交换 方式 ， 也 可 以 通过 基于 一 对 异步 消息 交换 的 请 求 / 
应 答 协议 来 实现 。 在 这 两 种 情况 中 ， 请 求 或 应 答 消息 都 包含 在 称 为 信封 的 XML 格式 的 文档 中 。 虽 
然 可 以 使 用 其 他 协议 ， 但 SOAP 信 封 通常 通过 异步 HTTP 协 议 传送 。 

XML 和 SOAP 处 理 程序 可 用 于 所 有 广泛 使 用 的 编程 语言 和 操作 系统 。 这 使 得 可 以 在 任何 地 方 部 
署 Web 服 务 及 其 客户 。 由 于 Web 服 务 既 不 绑 定 到 任何 编程 语言 也 不 支持 分 布 式 对 象 模型 ， 这 使 得 这 
种 交互 形式 成 为 可 能 。 

在 传统 的 中 间 件 服务 中 ， 接 口 定义 为 客户 提供 了 服务 的 详细 信息 。 然 而 ， 在 Web 服 务 中 使 用 了 
服务 描述 。 服 务 描述 不 仅 描述 了 服务 的 接口 ， 还 指定 了 使 用 的 通信 协议 (如 SOAP) 和 服务 的 URI。 
接口 既 可 以 描述 成 一 组 操作 ， 也 可 以 描述 成 在 客户 和 服务 器 之 间 交 换 的 一 组 消息 。 

需要 交换 某 个 文档 的 多 个 用 户 都 要 在 该 文档 上 执行 不 同 的 任务 ，XML 安 全 性 旨 在 为 该 文档 的 
内 容 提 供 必要 的 保护 。 不 同 的 用 户 可 以 访问 文档 的 不 同 部 分 ， 某 些 用 户 可 以 添加 或 更 改 文档 内 容 
而 有 些 用 户 则 只 能 阅读 文档 。 为 使 该 文档 在 以 后 的 使 用 中 更 加 灵活 ， 在 文档 内 定义 了 安全 属性 。 
它 通 过 使 用 一 种 自 描述 的 格式 一 -XML 来 完成 。XML 元 素 用 于 指定 经 过 加 密 或 签名 的 文档 部 分 ， 
也 指定 了 所 使 用 算法 的 详细 信息 以 及 用 于 帮助 查找 密 钥 的 信息 。 

为 了 支持 分 布 在 世界 不 同 地 方 的 组 织 中 的 科学 家 或 工程 师 之 间 的 协作 ， 出 现 了 运行 在 Web 服 
务 之 上 的 网 格 中 间 件 。 这 些 用 户 的 工作 通常 基于 使 用 不 同 站 点 的 工具 收集 的 并 在 本 地 处 理 的 原始 
数据 。Web 服 务 接口 使 得 用 户 可 以 远程 访问 这 些 数 据 。 然 而 ， 代 表 远 程 客户 开始 处 理 数据 的 需求 
导致 了 需要 按 需 创建 服务 实例 并 管理 其 生命 期 。 网 格 体系 结构 向 Web 服 务 增添 了 工厂 以 及 用 于 引 
用 服务 实例 的 两 级 命名 模式 。 另 外 ， 它 支持 描述 服务 实例 特征 的 元 数据 。 它 还 详 叙 了 目录 、 管 理 
和 安全 服务 。Globus 工 具 包 是 该 体系 结构 的 一 个 实现 ， 它 已 用 于 多 种 数据 密集 型 和 计算 密集 型 应 
用 程序 。 


练习 


19.1 比较 4.4 节 介绍 的 请 求 / 应 答 协 议和 使 用 SOAP 的 客户 -服务 器 通信 的 实现 。 为 什么 SOAP 使 用 
的 异步 消息 更 适合 于 因特网 上 的 应 用 ， 请 给 出 两 个 原因 。SOAP 通 过 使 用 HTTP 在 什么 范围 内 


减少 了 两 种 方法 之 间 的 差异 ? (第 790 页 ) 
19.2 比较 Web 服 务 使 用 的 URL 结 构 与 4.3.4 节 介绍 的 远程 对 象 引 用 的 URL 结 构 。 说 明 在 每 一 种 情况 
下 它们 如 何 处 理 客户 请 求 。 (第 794 页 ) 
19.3 使 用 SOAP 以 及 图 19-4 和 图 19-5 中 给 出 的 XML 的 图 示 版 本 重 做 练习 5.3 。 (第 791 页 ) 


19.4 列 出 WSDL 服 务 描述 的 五 个 主要 元 素 。 请 说 明 在 练习 5.1 定 义 的 Election 服 务 中 ， 请 求 和 应 答 消 
息 所 使 用 的 信息 类 型 一 一 这 些 都 必须 包括 在 目标 名 字 空 间 中 吗 ? 对 于 vote 操作 ， 画 出 类 似 于 


图 19-11 和 图 19-13 的 图 。 (第 803 页 ) 
19.5 在 Election 服 务 的 例子 中 ， 解 释 练习 19.4 中 定义 的 WSDL 部 分 被 称 作 “抽象 ”的 原因 。 为 使 服 
务 描述 成 为 完全 “具体 ”的 ， 需 要 向 其 中 增添 什么 ? | (第 800 页 ) 
19.6 为 Election 服 务 定义 一 个 Java 接 口 ， 使 其 适合 用 作 Web 服 务 。 说 明 你 定义 的 接 日 为 什么 是 合适 
的 。 解 释 如 何 生成 该 服务 的 WSDL 文 档 并 使 客户 可 以 使 用 该 文档 。 (第 796 页 ) 
19.7 描述 Election 服 务 的 Java 客 户 代理 的 内 容 。 解 释 如 何 从 静态 代理 获得 正确 的 编码 和 解码 方法 。 
(第 797 页 ) 

19.8 解释 servlet 容 器 在 部 署 Web 服 务 和 处 理 客 户 请 求 时 的 作用 。 (第 796 页 ) 


19.9 在 图 19-8 和 图 19-9 给 出 的 Java 例 子 中 ， 虽 然 Web 服 务 不 支持 分 布 式 对 象 ， 但 客户 和 服务 器 都 
处 理 对 象 。 为 什么 会 出 现 这 种 情况 ? Java Web 服 务 接口 的 限制 是 什么 ? (第 796 页 ) 
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19.10 


19.11 


19.12 


19.13 


19.14 


19.15 


19.16 


19.17 





概述 UDDI 中 使 用 的 复制 模式 。 假 设 使 用 向 量 时 间 稚 来 支持 该 模式 ， 定 义 注册 处 交换 数据 所 


用 的 一 对 操作 。 (第 807 页 ) 
考虑 到 询问 类 型 ， 解 释 为 什么 既 可 以 把 UDDI 看 作 名 字 服 务 又 可 以 看 作 目 录 服 务 ? UDDI 中 
的 第 二 个 “D” 指 的 是 “发 现 ”，UDDI 真 的 是 一 个 发 现 服务 吗 ? (第 9 章 及 第 805 页 ) 
概述 TLS 和 XML 安 全 性 之 间 的 主要 区 别 。 解 释 为 什么 在 这 些 区 别 中 ，XML 特 别 适合 其 扮演 
的 角色 ? (第 807 页 ) 
在 可 以 预测 最 终 接收 者 之 前 ， 受 XML 安 全 性 保护 的 文档 可 以 被 签名 或 加 密 。 采 取 什 么 措施 
可 以 确保 后 面 的 接收 者 能 够 访问 前 面 接收 者 使 用 的 算法 ? (第 807 页 ) 


解释 规范 的 XML 和 数字 签名 之 间 的 相关 性 。 规 范 的 形式 中 可 以 包括 什么 样 的 上 下 文 信息 ? 


“给 出 一 个 违背 安全 性 的 例子 ， 其 中 在 规范 的 形式 中 省 略 了 上 下 文 。 (第 810 页 ) 
为 协调 Web 服 务 的 操作 可 以 执行 一 个 协作 协议 。 分 别 概述 (1) 集中 式 和 (2) 分 布 式 协作 


协议 的 体系 结构 。 在 每 种 情况 下 ， 说 明 在 一 对 Web 服 务 之 间 建 立 协作 所 需 的 交互 。 


(第 812 页 ) 
Web 服 务 在 多 大 程度 上 满足 支持 网 格 的 需求 ? 概述 OGSI 服 务 如 何 添加 Web 服 务 没 有 提供 的 
功能 。 (第 822 页 ) 


概述 Globus 工 具 包 中 的 索引 服务 的 功能 。 说 明 UDDI 为 什么 不 适合 用 作 网 格 的 目录 服务 。 
(第 822 页 ) 
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第 20 章 CORBA 实 例 研 究 


CORBA 是 一 种 中 间 件 设计 ， 它 允许 不 同 应 用 程序 间 进 行 相 互通 信 ， 而 不 用 考虑 它们 的 编程 语 
言 、 软 硬件 平台 、 通 信和 网 络 以 及 它们 的 实现 者 。 

许多 应 用 是 由 CORBA 对 象 创建 的 ，CORBA 对 象 实现 以 CORBA 接 口 定义 语言 (IDL) 定义 的 
接口 。 客 户 通过 RMI 的 方式 访问 CORBA 对 象 IDL 接 口中 的 方法 。 支 持 RMI 的 中 间 件 组 件 称 为 对 象 
请 求 代理 ， 或 简称 为 ORB。 

CORBA 规 约 已 经 由 对 象 管理 组 (OMG) 的 成 员 共 同 提出 。 根 据 规约 实现 了 许多 不 同 的 ORB， 
并 支持 包括 Java 和 C++ 在 内 的 各 种 各 样 的 编程 语言 。 

CORBA 服 务 提供 能 在 许多 应 用 领域 采用 的 通用 机 制 。 它 们 包括 名 字 服 务 、 事 件 和 通知 服务 、 
安全 服务 、 事 务 和 并 发 服务 以 及 交易 服务 。 


20.1 简介 


为 了 从 软件 开发 所 用 的 面向 对 象 程序 设计 中 获 益 ， 也 为 了 应 用 日 益 流 行 的 分 布 式 系统 ， 一 个 
旨 在 推广 采用 分 布 式 对 象 系统 的 组 织 OMG (对 象 管理 组 ) 于 1989 年 正式 成 立 。 为 了 实现 其 宗旨 ， 
OMG 倡 导 使 用 基于 标准 面向 对 象 接口 的 开放 式 系 统 。 开 放 式 系统 可 以 由 异 构 的 硬件 、 异 构 的 计算 
机 网 络 、 异 构 的 操作 系统 和 编程 语言 来 实现 。 

构建 开放 式 系统 的 一 个 重要 动机 是 : 允许 分 布 式 对 象 以 任意 编程 语言 来 实现 ， 并 且 能 够 相互 
通信 。 因 此 ，OMG 设 计 了 一 种 独立 于 任何 特定 实现 语言 的 接口 语言 。 

他 们 引入 了 一 种 比喻 ， 提 出 了 对 和 象 请 求 代理 (ORB) 的 概念 。ORB 的 任务 是 帮助 客户 调用 对 
象 二 的 方法 ， 包 括 定 位 对 象 、 在 需要 的 时 候 激 活 对 象 、 把 客户 的 请 求 传递 给 执行 及 应 答 这 些 请 求 

1991 年 ， 一 个 对 象 请 求 代理 体系 结构 的 规约 ， 也 就 是 大 家 熟知 的 CORBA (公共 对 象 请 求 代理 
体系 结构 ) ， 得 到 许多 公司 的 认同 和 接受 。 紧 接着 ，1996 年 又 推出 了 CORBA 2.0 规 约 ，CORBA 2.0 
规约 定义 了 一 些 标准 ， 目 的 是 使 不 同 开发 者 的 实现 能 相互 通信 。 这 些 标 准 称 为 通用 ORB 间 互 操作 
协议 (GIOP)。 根 据 设 计 ，GIOP 能 够 在 任何 具有 连接 的 传输 层 上 实现 。 在 因特网 上 实现 的 GIOP 使 
用 的 是 TCP 协 议 ， 故 称 为 因特网 ORB 间 互 操作 协议 (或 IOP) [OMG 2004a], 而 CORBA 3 在 1999 
年 下 半年 第 一 次 出 现 ， 并 且 最 近 又 添加 了 一 个 组 件 模型 。 

CORBA 的 语言 无 关 的 RMI 框 架 包含 以 下 几 个 主要 组 成 部 分 : 

“接口 定义 语言 ， 即 IDL， 它 将 在 20.2 节 的 开始 部 分 加 以 介绍 ， 而 更 完整 的 描述 在 20.2.3 节 给 出 。 

“体系 结构 ， 详 见 20.2.2 节 的 讨论 。 

* GIOP 定 义 了 一 种 外 部 数据 表示 ， 称 为 CDR， 详 见 4.3 节 的 介绍 。 它 还 定义 了 请 求 一 应 答 协 议 

中 消息 的 特定 格式 。 除 了 请 求 和 应 答 消息 之 外 ， 它 还 规定 了 询问 对 象 位 置 的 消息 ， 以 便 取消 

请 求 和 报告 错误 。 

“IIOP 作 为 GIOP 的 一 个 实现 定义 了 远程 对 象 引 用 的 标准 格式 ， 详 见 20.2.4 节 的 描述 。 

CORBA 体 系 结构 还 考虑 了 CORBA 服 务 ， 即 一 系列 可 以 用 于 分 布 式 应 用 的 通用 服务 ， 这 些 都 在 
20.3 贡 详细 介绍 ，20.3 节 还 详细 地 阐述 了 名 字 服 务 、 事 件 服务 、 通 知 服务 和 安全 服务 。 与 CORBA 有 


关 的 论文 的 汇总 详 见 CACM 特 刊 [Seetharamanan 1998]。 
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在 讨论 CORBA 的 以 上 组 成 部 分 之 前 ， 我 们 先 从 一 个 程序 员 的 角度 介绍 一 下 CORBA RMI。 
20.2 CORBA RMI 


与 单 语言 RMI 系 统 (如 Java RMI) 的 编程 相 比 ， 像 CORBA RMI 这 样 的 多 语言 RMI 系 统 的 编程 
需要 更 多 的 程序 员 。 他 们 必须 首先 了 解 以 下 几 个 新 概念 : 

。CORBA 提 供 的 对 象 模型 。 

。 接 口 定义 语言 及 其 在 实现 语言 上 的 映射 。 

CORBA 编 程 的 其 他 方面 与 第 5 章 的 讨论 类 似 。 需 要 特别 指出 的 是 ， 程 序 员 定 义 了 远程 对 象 的 
远程 接口 后 ， 用 一 个 接口 编译 器 产生 相应 的 代理 和 骨架 。 但 在 CORBA 中 ， 代 理 是 用 客户 语言 创建 
的 ， 而 骨架 是 用 服务 器 语言 创建 的 。 我 们 将 以 5.5 节 中 介绍 过 的 共享 白板 程序 为 例 ， 介 绍 如 何 写 一 
个 IDL 规 范 ， 以 及 如 何 创建 服务 器 和 客户 程序 。 

CORBA 的 对 象 模型 ”CORBA 对 象 模 型 与 5.2 节 介绍 过 的 一 个 对 象 模型 相似 ， 但 是 客户 不 一 定 
必须 是 对 象 一 任何 能 向 远程 对 象 发 送 请 求 消息 并 能 接受 应 答 的 程序 都 可 以 作为 客户 。 这 里 ， 术 语 
CORBA 对 象 指 的 是 远程 对 象 。 这 样 ， 一 个 CORBA 对 象 实现 一 个 IDL 接 口 ， 拥 有 一 个 远程 对 象 引 用 ， 
并 能 应 答对 其 IDL 接 口中 方法 的 调用 。CORBA 对 象 可 以 由 非 面向 对 象 语言 来 实现 ， 例 如 没有 类 概 
念 的 语言 。 既 然 在 不 同 的 实现 语言 中 有 不 同 的 类 的 概念 ， 有 些 甚至 没有 类 概念 ， 故 而 在 CORBA 中 
不 存在 类 的 概念 。 因 此 ， 类 不 能 在 CORBA IDL 中 定义 ， 也 就 是 说 ， 类 的 实例 不 能 作为 参数 传递 。 
但 是 ， 各 种 类 型 和 任意 复杂 度 的 数据 结构 都 可 以 作为 参数 传递 。 

CORBA IDL 一 个 CORBA IDL 接 口 指定 一 个 客户 能 够 请 求 的 名 字 和 一 系列 方法 。 图 20-1 显 示 
了 两 个 分 别称 为 Shape (第 3 行 ) 和 ShapeList (第 5 行 ) 的 接口 ， 它 们 是 图 5-12 中 定义 的 接口 的 IDL 
版 本 。 在 它们 的 前 面 是 两 个 struct 的 定义 ， 这 两 个 struct 在 方法 定义 中 用 作 参 数 的 类 型 。 特别 要 注意 
的 是 ，GraphicalObject 也 被 定义 为 一 个 struct， 而 它 在 Java RMI 例 子 中 是 一 个 类 。 一 个 struct 类 型 的 
组 件 有 一 系列 域 ， 可 包含 各 种 类 型 的 值 ， 比 如 一 个 对 象 的 实例 变量 ， 但 是 它 没有 方法 。 关 于 IDL 更 
多 的 介绍 见 20.2.3 节 。 


Struct Rectanglef 1 





long width; 
long height: 
long x; 
long y: 
有 
Struct GraphicalObject { 2 
string type; 
Rectangle enclosing; 
boolean isFilled: 
六 
interface Shape { 3 
long getVersion(); 
GraphicalObject getAllState( ) » 1/ 返 同 状态 
天 
typedef sequence< Shape, 100> 4 本 
interface ShapeList{ 
exception FullException {}; 
Shape newShape(in GraphicalObject g) raises (FullException): 
All allShapes( ); /返回 远程 对 象 引 用 的 序列 
long getVersion(); 


POND mA 
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CORBA IDL 中 的 参数 和 结果 : 通过 使 用 关键 字 in、out 或 者 inout 可 将 每 个 参数 标记 为 是 输入 类 
型 或 者 输出 类 型 或 者 二 者 皆 是 。 图 5-2 描 述 了 一 个 使 用 这 些 关 键 字 的 简单 例子 。 在 图 20-1 的 第 7 行 中 ， 
newShape 的 参数 是 一 个 in 参 数 ， 说 明 该 参数 应 该 通过 请 求 消息 从 客户 传递 到 服务 器 。 返 回 值 提 供 
了 一 个 附加 的 out 参 数 一 一 如 果 没 有 out 参 数 ， 可 以 将 返回 值 指明 为 void。 

参数 可 以 是 简单 类 型 中 的 任何 一 种 ， 例 如 long 和 boolean 型 ， 或 者 是 一 种 构造 类 型 ， 比 如 struct 
或 者 array。 简 单 类 型 和 构造 类 型 在 20.2.3 节 有 更 详细 的 描述 。 我 们 的 例子 在 第 1 行 和 第 2 行 给 出 了 两 
个 struct 的 定义 。 序 列 和 数组 用 typedef 定 义 ， 如 第 4 行 所 示 ， 它 表示 一 个 长 度 为 100 的 Shape 类 型 的 
元 素 序列 。 参 数 传递 的 语义 如 下 : 
传输 CORBA 对 象 ， 如 果 某 个 参数 的 类 型 由 一 个 IDL 接 口 的 名 字 指 定 ， 例 如 第 7 行 中 的 返回 值 Shape， 
那么 它 就 是 一 个 到 CORBA 对 象 的 引用 ， 并 且 传 递 的 是 远程 对 象 引 用 的 值 。 

传输 CORBA 简 单 类 型 和 构造 类 型 :简单 类 型 和 构造 类 型 的 参数 是 拷贝 之 后 以 值 传递 的 。 到 传 
递 到 达 的 时 候 ， 由 接收 者 的 进程 创建 一 个 新 的 值 。 例 如 ， 作 为 参数 传递 的 GraphicalObject 结 构 (第 
7 行 ) 就 在 服务 器 上 创建 了 这 种 结构 的 一 个 新 拷贝 。 

在 allShapes 方 法 (第 8 行 ) 中 结合 了 这 两 种 形式 的 参数 传递 ， 它 的 返回 类 型 是 一 个 Shape 类 型 
的 数组 ， 即 一 个 远程 对 象 引 用 的 数组 。 它 的 返回 值 是 该 数组 的 拷贝 ， 其 中 每 个 元 素 都 是 一 个 远程 
对 象 引 用 。 

Object 类 型 : Object 是 其 值 为 远程 对 象 引 用 的 类 型 的 名 字 。 它 实际 上 是 所 有 IDL 接 口 类 型 ( 例 
如 Shape 和 ShapeList 等 ) 的 公共 超 类 型 。 

CORBA IDL 中 的 异常 : CORBA IDL 人 允许 在 接口 中 定义 异常 并 由 它们 的 方法 抛 出 异常 。 为 了 
说 明 这 一 点 ， 我 们 在 服务 器 中 将 Shapes 列 表 定义 为 一 个 定 长 序列 (第 4 行 )， 还 定义 了 FullException 
(第 6 行 ) 异常 ， 如 果 客 户 试图 在 序列 全 满 的 情况 下 添加 一 个 形状 的 话 ，newShape 方 法 (第 7 行 ) 将 
抛 出 该 异常 。 

调用 语义 :， CORBA 中 的 远程 调用 在 默认 情况 下 采用 至 多 一 次 调用 语义 。 然 而 ，IDL 可 以 通过 
使 用 oneway 关 键 字 指定 某 个 方法 的 调用 有 或 许 语义 。 客 户 不 阻塞 oneway 请 求 ， 它 只 能 用 于 没有 返 
回 结果 的 方法 。 有 关 oneway 请 求 的 一 个 例子 ， 参 见 20.2.1 节 末尾 关于 回调 的 例子 。 

CORBA 名 字 服 务 CORBA 名 字 服 务 将 在 20.3.1 节 讨论 。 它 是 一 个 绑 定 程序 ， 提 供 多 种 操作 ， 
包括 为 服务 器 提供 rebind 操 作 ， 以 便服 务 器 能 用 名 字 注 册 CORBA 对 象 的 远程 对 象 引 用 ， 还 包括 为 
客户 提供 resolve 操 作 ， 以 便 客户 能 按 名 字 查 找 它 们 。 名 字 以 层次 方式 构造 ， 并 且 一 条 路 径 中 的 每 
个 名 字 都 放 在 一 个 称 为 NameComponent 的 结构 之 中 。 这 使 得 简单 例子 中 的 访问 看 起 来 相当 复杂 。 

CORBA 伪 对 象 ”CORBA 的 实现 提供 了 程序 员 需 要 使 用 的 一 些 ORB 的 功能 的 接口 。 特 别 是 它 
们 提供 了 图 20-6 所 示 的 两 个 组 件 ， ORB 核 心 和 对 象 适 配器 的 接口 。 这 两 个 组 件 的 作用 将 在 20.2.2 节 
中 介绍 。 

代表 那些 组 件 的 对 象 称 为 伪 对 象 ， 因 为 它们 不 能 像 通 常 的 CORBA 对 象 那样 使 用 。 例 如 ， 它 们 
不 能 作为 RMI 的 参数 传递 。 它 们 拥有 IDL 接 口 ， 并 被 实现 为 库 。 与 我 们 的 简单 例子 (使 用 Java 21.4 
版 本 ) 相关 的 是 ， 

* 对 象 适配器 ， 它 从 CORBA 2.2 开 始 是 可 以 移动 的 ， 因 此 也 称 为 可 移动 对 象 适配器 (POA)。 它 
的 接口 包括 : 一 个 激活 POAmanager 的 方法 和 一 个 用 于 注册 CORBA 对 象 的 servant_to_reference 
方法 。 

。ORB 的 接口 包括 :init 方 法 ,该 方法 用 于 初始 化 ORB ，resolve_initial_reference 方 法 ， 它 
用 于 查询 服务 (例如 名 字 服 务 ) 和 根 POA; 以 及 其 他 用 于 远程 对 象 引 用 与 字符 串 之 间 转 换 
的 方法 。 
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20.2.1 CORBA 客 户 和 服务 器 实例 
本 节 概 述 采 用 图 20-1 中 IDL 定 义 的 Shape 和 ShapeList 接 口 来 说 明 创 建 客户 和 服务 器 程序 的 必要 
步骤 。 随 后 讨论 CORBA 中 的 回调 。 我 们 使 用 Java 作 为 客户 和 服务 器 编程 语言 ， 这 种 方法 对 于 其 他 
语言 来 说 也 是 相似 的 。 接 口 编译 器 idj 可 以 应 用 到 CORBA 接 口中 ， 用 于 创建 如 下 项 目 : 
*。 等 价 的 java 接口 一 一 每 一 个 LDL 接口 对 应 于 两 个 Java 接 口 。 第 一 个 Java 接 口 名 称 以 Operations 
结尾 ， 用 于 定义 IDL 接 口中 的 操作 。 第 二 个 Java 接 口 名 称 与 IDL 接 口 名 称 相同 ， 用 于 实现 第 一 
个 Java 接 口中 的 操作 ， 以 及 适合 CORBA 对 象 的 接口 中 的 操作 。 例 如 ，IDL 接 口 ShapeList 产 生 
两 个 Java 接 口 ， 分 别 为 ShapeListOperations 和 ShapeList (如 图 20-2 所 示 )。 





public interface ShapelistOperations { 
Shape newShape { GraphicalObject 8 ) throws ShapeListPackage.FullException : 
Shapel] allShapes 1 ); 
int getVersion { ); 


} 








public interface ShapeList extends ShapeListOperations, org.omg.CORBA.Objecr, 
org.omg.CORBA.portable.IDLEntity{ } 





图 20-2 根据 CORBA 接 口 ShapeList 由 idj 生 成 的 Java 接 口 


。 每 个 idl 接 口 的 服务 器 骨架 。 人 骨架 类 的 名 字 以 POA 结 束 ， 例 如 ShapeListPOA 。 

“每 一 个 LDL 接口 对 应 一 个 代理 类 或 者 客户 存根 。 这 些 类 的 名 字 以 Stub 结 尾 ， 例 如 

_ShapeListStub 。 

“IDL 接 口中 定义 的 每 个 struct 对 应 于 一 个 Java 类 。 在 我 们 的 例子 中 ， 创 建 了 Rectangle 和 

GraphicalObject 类 。 其 中 每 个 类 包含 一 个 实例 变量 (对 应 于 struct 中 的 每 个 域 ) 和 一 对 构造 函 

数 的 声明 ， 但 是 没有 其 他 方法 。 

“每 种 类 型 都 有 一 个 定义 在 IDL 接 口中 称 为 helper 和 holder 的 类 。helper 类 包括 narrow 方 法 ， 它 用 于 

将 一 个 给 定 的 对 象 引 用 强制 转换 到 它 所 属于 的 处 于 更 低 类 层次 的 类 。 例 如 ，ShapeHelper 中 的 

narrow 方 法 强制 转换 到 类 Shape。holder 类 处 理 out 和 inout 参 数 ， 它 不 能 直接 映射 到 Java。 参 见 练 

习 20.9， 该 练习 是 使 用 holder 的 一 个 例子 。 

服务 器 程序 ”服务 器 程序 应 该 包含 一 个 或 多 个 IDL 接 口 的 实现 。 对 于 一 个 以 面向 对 象 语言 (如 
Java 或 C++) 编写 的 服务 器 来 说 ， 这 些 实现 是 作为 伺服 类 实现 的 。CORBA 对 象 是 伺服 类 的 实例 。 

当 一 个 服务 器 创建 一 个 伺服 类 的 实例 时 ， 它 必须 用 POA 注 册 ，POA 将 该 实例 放 入 CORBA 对 象 中 ， 
并 给 它 一 个 远程 对 象 引 用 。 除 非 做 完 这 一 步 ， 否 则 CORBA 对 象 就 不 能 接收 远程 调用 。 仔 细 研 究 了 第 5 
章 的 读者 可 能 会 认识 到 ， 通 过 POA 注 册 的 对 象 会 被 记录 在 类 似 于 远程 对 象 表 的 CORBA 中 的 等 价位 置 。 

在 我 们 的 例子 中 ， 服 务 器 包括 Shape 和 ShapeList 接 口 的 实现 ， 它 的 形式 是 两 个 伺服 类 和 一 个 在 
其 main 方 法 中 包含 初始 化 部 分 ( 见 5.2.5 节 ) 的 服务 器 类 。 

伺服 类 : 每 个 伺服 类 扩展 了 相应 的 骨架 类 ， 并 使 用 在 等 价 的 Java 接 口中 定义 的 方法 基调 来 实现 
了 IDL 接 口中 的 方法 。 尽 管 也 可 以 选择 其 他 的 名 字 ， 但 还 是 将 实现 ShapeList 接 口 的 伺服 类 命名 为 
ShapeListServant。 该 类 的 要 点 显示 在 图 20-3 中 。 考 虑 第 ! 行 中 的 方法 newShape, 它 是 一 个 工厂 方法 ， 
因为 它 创 建 了 Shape 对 象 。 为 了 使 Shape 对 象 成 为 一 个 CORBA 对 象 ， 通 过 POA 的 
servant_to_reference 方 法 注册 ， 如 第 2 行 所 示 。 这 个 方法 需要 引用 根 POA， 而 这 个 根 POA 是 在 创建 
伺服 器 时 通过 构造 器 传人 的 。 关 于 这 个 例子 的 IDL 接 口 和 客户 、 服 务 器 类 的 完整 版 本 参见 
www.cdk4.net / corba。 

服务 器 : 在 服务 器 类 ShapeListServer 中 的 main 方 法 如 图 20-4 所 示 。 它 首先 创建 和 初始 化 ORB 
(第 1 行 )， 这 个 过 程 需要 引用 根 POA ， 并 且 激 活 POAManager (第 2、3 行 )。 然 后 ， 它 创建 


oc 
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ShapeListServyant 的 一 个 实例 ， 它 是 一 个 Java 对 象 (第 4 行 )， 同 时 给 根 POA 传 递 一 个 引用 。 其 次 通 
过 在 POA 中 注册 它 而 使 之 成 为 一 个 CORBA 对 象 (第 5 行 )。 此 后 ， 它 通过 名 字 服 务 注册 服务 器 。 最 
后 它 等 待 客户 请 求 的 到 来 〈 第 10 行 ) 。 


import org.omg.CORBA.*; 
import org.omeg.PortableServer.POA, 
class ShapeListServant extends ShapeListPOA{ 
private POA theRootpoa; 
private Shape theList!]; 
private int version; 
private static int n=0O; 
public ShapeListServant{ POA rootpoa) { 
theRootpoa= rootpoa; 
/初始 化 其 他 实例 变量 
2 
public Shape newShape{ GraphicalObject g) throws ShapeListPackage FullException{ | 
version++; 
Shape s = null; 
ShapeServant shapeRef=new ShapeServant{ g,version): 
ry{ 


org.omg.CORBA.Object ref=theRoopoa.servant_ to_reference( shapeRef): 2 
$= ShapeHelper.narrow(ref); 
jcatch{ Exception eX} 
iffin >=100) throw new ShapeListPackage.FullException( }: 
theList{n++}] = s; 


return s, 
} 
public Shapel] allShapes(){ ... } 
public int getVersion{ ) {...} 
2 








图 20-3 CORBA 接 口 ShapeList 的 Java 服 务 器 程序 中 的 ShapeListServant 类 


服务 器 使 用 名 字 服 务 先 获得 一 个 根 名 字 上 下 文 (第 6 行 )， 然 后 创建 一 个 NameComponent (第 7 
行 )， 定 义 一 条 路 径 (第 8 行 )， 最 后 使 用 rebind 方 法 (第 9 行 ) 注册 名 字 和 远程 对 象 引 用 。 客 户 执行 
相同 的 步骤 ， 但 是 使 用 图 20-$ 的 第 2 行 中 的 resolve 方 法 。 

客户 程序 图 20-5 给 出 了 一 个 客户 程序 的 例子 。 它 创建 和 初始 化 ORB (第 1 行 )， 然 后 联系 名 字 服 
务 ， 利 用 它 的 resolve 方 法 获得 一 个 远程 ShapeList 对 象 的 引用 (第 2 行 )。 在 它 调用 allShapes 方 法 (第 3 
行 ) 获得 服务 器 上 当前 拥有 的 所 有 Shape 对 应 的 一 系列 远程 对 象 引 用 之 后 ， 它 调用 getAllState 方 法 (第 
4 行 )， 作 为 返回 序列 中 的 第 一 个 远程 对 象 引用 的 参数 ， 结 果 作 为 GraphicalObject 类 的 一 个 实例 提供 。 

getAllState 方 法 看 起 来 与 我 们 最 初 的 声明 ， 即 在 CORBA 中 对 象 不 能 通过 值 传输 似乎 是 矛盾 的 ， 
因为 客户 和 服务 器 都 处 理 了 GraphicalObject 类 的 实例 。 然 而 ， 实 际 上 并 不 是 矛盾 的 ，CORBA 对 象 
返回 了 一 个 结构 ， 使 用 不 同 的 语言 的 客户 对 它 就 有 不 同 的 看 法 。 例 如 ， 在 C++ 语言 中 ， 客 户 会 将 它 
看 作 一 种 结构 ， 即 使 在 Java 中 ， 已 创建 的 GraphicalObject 类 也 更 像 一 种 结构 ， 因为 它 没有 任何 方法 。 

客户 程序 应 该 总 是 捕获 CORBA 的 SystemExceptions 异 常 ， 它 报告 因 分 布 性 而 引起 的 各 种 错误 
( 见 第 5 行 )。 客 户 程序 也 应 该 捕获 IDL 接 口中 定义 的 异常 ， 例如 由 newShape 方 法 抛 出 的 
FullException 异 常 。 

这 个 例子 阐述 了 narrow 操 作 的 使 用 :名 字 服 务 的 resolve 操 作 返回 一 个 Object 类 型 的 值 ， 这 个 类 

型 被 狭义 化 了 ， 以 适合 所 要 求 的 特定 类 型 一 一 ShapeList。 
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import org.omg.CosNaming.*; 

import org.omg.CosNaming.NamingContextPackage.*, 

import org .omg.CORBA.*; 

import org.omg.PortableServer.*; 

public class ShapeListServer { 

public static void main( String args[D { 
tiry{ 
ORB orb = ORB.init {args, null ) ; 
POArootpoa = POAHelper.narrow{orb.resolve_initial_references{ "RootPOA")); 
rootpoa.the_POAManager{).activatel );: 
ShapeListServant SLSRef=new ShapeListServant{rootpoa): 
org.omg.CORBA.Object ref=rootpoa.servant to_reference( SLSRef):; 
ShapeList SLRef=ShapeListHelper.narrow{ref): 
Org.omg.CORBA.Object objRef = orb.resolve_initial_references( "NameService"), 
NamingContext ncRef = NamingContextHelper.narrow{objRef): 6 
NameComponent nc = new NameComponent( "ShapeList",""): 7 
NameComponent path{] = {nc}: 8 
ncRef.rebind( path, SLRef); 9 
orb.run({): 10 
jcatch {Exception e){...} 
} 
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图 20-4 _ Java 类 ShapeListServer 





import org.omg.CosNaming.*; 
imiport org.omg.CosNaming.NamingContextPackage.*; 
import org.omg.CORBA.*; 
public class ShapeListClient { 
public static void main(String args[]) { 
try{ 
ORB orb = ORB.init{args, null}; 7 
org.omg.CORBA.Object objRef = 
orb.resolve_initial_references({ "NameService"): 
NamingContext ncRef = NamingContextHelper.narrow{objRef): 
NameComponent nc = new NameComponent! "ShapeList", ""); 
NameComponent path [} = { nc }; 
ShapeList shapeListRef = 
ShapeListHelper.narrow{(ncRef.resolve{ path)); 2 
Shapel] sList = shapeListRef.allShapes( ); 
GraphicalObject 8 = sList[0].getAllStatel ); 4 
} catch (org.omg.CORBA.SystemException e) {...} 





Co 





图 20-5 CORBA 接 口 Shape 和 ShapeList 的 Java 客 户 程序 


回调 回调 可 以 在 CORBA 中 以 一 种 类 似 于 5.5.1 节 Java RMI 中 搞 述 的 方式 来 实现 。 例如 ， 
WhiteboardCallback 接 日 可 以 如 下 定义 : 

interface WhiteboardCallback { 

oneway void callback {in int version); 

上 

这 个 接口 作为 CORBA 对 象 由 客户 实现 ， 使 服务 器 能 在 添加 新 对 象 的 时 候 给 客户 发 送 一 个 版 本 
号 。 但 是 在 服务 器 能 这 样 做 之 前 ， 客 户 需要 将 它 的 对 象 的 远程 对 象 引 用 告诉 服务 器 。 为 此 ， 
ShapeList 接 口 要 求 增加 额外 的 方法 ， 例 如 下 面 的 register 和 deregister;: 
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int register ( in WhiteboardCallback callback ) ; 

void deregister ( in int callbackld ) ; 

在 客户 获得 了 ShapeList 对 象 的 一 个 引用 并 创建 了 WhiteboardCallback 的 一 个 实例 之 后 ， 它 使 用 
ShapeList 的 register 方 法 告诉 服务 器 它 对 接收 回调 感 兴趣 。 服 务 器 中 的 ShapeList 对 象 负责 维护 一 个 感 
兴趣 的 客户 的 列表 ， 并 在 每 次 添加 新 对 象 而 使 版 本 号 增加 的 时 候 通知 这 些 感 兴趣 的 客户 。callback 方 
法 被 声明 为 oneway 类 型 ， 以 便服 务 器 能 使 用 异步 调用 ， 从 而 避免 因为 通知 每 个 客户 而 带 来 延迟 。 


20.2.2 CORBA 体 系 结构 


该 体系 结构 设计 用 于 支持 对 象 请 求 代理 ， 使 客户 能 调用 远程 对 象 的 方法 。 在 这 种 情况 下 ， 客 
户 和 服务 器 都 能 以 各 种 编程 语言 实现 。CORBA 体 系 结构 的 主要 组 件 如 图 20-6 所 示 。 





图 20-6 CORBA 体 系 结构 的 主要 组 件 


将 该 图 与 图 5-7 对 比 ， 可 以 发 现 ，CORBA 体 系 结构 包含 了 三 种 额外 的 组 件 : 对 象 适配器 、 实 现 
仓库 和 接口 仓库 。 

CORBA 提 供 动 态 调用 与 静态 调用 。 在 编译 时 如 果 知 道 CORBA 对 象 的 远程 接口 ， 就 使 用 静态 
调用 ， 让 客户 存根 和 服务 器 骨架 可 用 。 如 果 在 编译 时 还 不 知道 远程 接口 ， 就 必须 使 用 动态 调用 。 
大 多 数 程序 员 喜 欢 使 用 静态 调用 ， 因 为 它 提供 了 更 自然 的 编程 模型 。 

我 们 现在 讨论 体系 结构 的 组 件 ， 将 动态 调用 留 到 最 后 考虑 。 

ORB 核 心 ”ORB 核 心 的 作用 类 似 于 图 5-7 中 的 通信 模块 。 另 外 ，ORB 核 心 提供 的 接口 包括 如 下 
操作 : 

。 启动 和 停止 ORB 的 操作 。 

“在 远程 对 象 引 用 和 字符 串 之 间 进 行 转换 的 操作 。 

* 为 采用 动态 调用 的 请 求 提 供 参 数列 表 的 操作 。 

对 象 适配器 ”对 象 适 配器 的 任务 是 在 具有 IDL 接 口 的 CORBA 对 象 和 对 应 的 伺服 类 的 编程 语言 
接口 之 间 建 立 一 座 桥梁 。 它 也 包括 图 5-7 中 显示 的 远程 引用 模块 和 分 发 器 模块 的 功能 。 对 象 适配器 
有 具有 如 下 的 任务 : 

* 它 为 CORBA 对 象 创建 远程 对 象 引 用 ( 见 20.2.4 节 )。 

* 它 通过 适当 的 伺服 器 骨架 调度 每 个 RMI。 

* 它 激活 或 休眠 伺服 器 。 

一 个 对 象 适配器 给 每 个 CORBA 对 象 指定 一 个 唯一 的 对 象 名 ,这 也 是 其 远程 对 象 引 用 的 一 部 分 。 
每 次 激活 某 个 对 象 都 使 用 相同 的 名 字 。 对 象 名 可 以 由 应 用 程序 来 指定 ， 也 可 以 由 对 象 适配器 来 创 
建 。 每 个 CORBA 对 象 都 在 它 的 对 象 适配器 中 注册 ， 对 象 适配器 维护 一 个 远程 对 象 表 ， 用 于 将 
CORBA 对 象 名 映射 到 它们 的 伺服 器 。 

每 个 对 象 适 配器 有 自己 的 名 字 ， 这 也 是 它 管 理 的 所 有 CORBA 对 象 的 远程 对 象 引 用 的 一 部 分 。 
这 个 名 字 既 可 以 由 应 用 程序 来 指定 ， 也 可 以 自动 地 创建 。 

可 移动 适配器 CORBA 2.2 标 准 中 将 对 象 适配器 称 为 可 移动 对 象 适配器 。 之 所 以 被 称 为 是 可 移 
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动 的 ， 是 因为 它 允 许 应 用 和 何 服 器 在 由 不 同 开发 者 创建 的 ORB 上 运行 [Vinoski 1998]。 这 种 可 移动 
性 是 通过 骨架 类 的 标准 化 以 及 POA 与 伺服 器 之 间 的 交互 实现 的 。 

POA 支 持 的 CORBA 对 象 按 生存 期 的 不 同 分 为 两 类 ， 

。 一 类 对 象 的 生命 周期 严格 限制 在 实例 化 了 它们 的 伺服 器 的 进程 中 。 

“ 另 一 类 对 象 的 生命 周期 可 以 跨越 多 个 进程 的 伺服 器 实例 化 。 

前 一 类 对 象 拥 有 暂时 性 的 对 象 引用 ， 后 一 类 对 象 拥 有 持久 性 的 对 象 引 用 ( 见 20.2.4 节 )。 

POA 人 允许 透明 地 实例 化 CORBA 对 象 。 另 外 ，POA 将 CORBA 对 象 的 生成 与 实现 这 些 对 象 的 体 
服 器 的 生成 分 开 。 对 于 那些 拥有 大 量 CORBA 对 象 的 服务 器 端 应 用 (例如 数据 库 ) 可 以 在 对 象 被 访 
问 的 时 候 再 按 需 生成 伺服 器 。 在 这 种 情况 下 ， 对 象 名 称 可 以 作为 数据 库 关 键 字 ， 作 为 一 种 选择 ， 
它们 可 以 使 用 一 个 伺服 器 来 支持 所 有 对 象 。 

另外 ，POA 策 略 是 可 以 指定 的 。 例 如 ， 可 以 定义 是 否 为 每 一 个 调用 提供 一 个 独立 的 线程 ， 一 
个 对 象 引 用 是 持久 性 的 还 是 暂时 性 的 ， 或 者 是 否 为 每 一 个 CORBA 对 象 提供 一 个 独立 的 伺服 器 。 点 
认 情 况 下 ， 一 个 伺服 器 可 以 支持 注册 到 POA 上 的 所 有 CORBA 对 象 。 

骨架 ”骨架 类 由 LDL 编译 器 用 服务 器 所 用 的 语言 创建 。 与 以 前 类 似 ， 远 程 方法 调用 通过 某 个 
伺服 器 的 适当 骨架 来 调度 ， 骨 架 还 解码 请 求 消息 中 的 参数 ， 并 编码 应 答 消息 中 的 异常 和 结果 。 

客户 存根 /代理 ”由 IDL 编 译 器 用 客户 所 用 的 语言 来 编写 。IDL 编 译 器 根据 IDL 接 口 为 客户 语言 
创建 代理 类 (对 于 面向 对 象 语言 ) 或 者 创建 一 系列 存根 过 程 (对 于 过 程 化 语言 ) 。 与 以 前 类 似 ， 客 
户 存根 /代理 对 调用 请 求 中 的 参数 进行 编码 ， 对 应 答 消 息 中 的 结果 和 异常 进行 解码 。 

实现 仓库 实现 仓库 负责 根据 需要 激活 已 经 注册 过 的 服务 器 ， 并 负责 定位 当前 正在 运行 的 服务 
器 。 用 对 象 适 配器 名 字 来 引用 那些 要 注册 和 激活 的 服务 器 。 

一 个 实现 仓库 存储 从 对 象 适配器 的 名 字 到 包含 对 象 实现 的 文件 路 径 名 的 映射 。 当 安装 服务 器 
程序 的 时 候 ， 对 象 实现 和 对 象 适配器 名 通常 注册 在 实现 仓库 中 。 当 对 象 实现 在 服务 器 中 被 激活 的 
时 候 ， 服 务 器 的 主机 名 和 端口 号 便 添 加 到 该 映射 中 。 

实现 仓库 的 数据 项 : 

| 对 象 适配器 名 四 对 象 实 现 的 路 径 名 上 服务 器 的 主机 名 和 端口 号 | 

并 不 是 所 有 的 CORBA 对 象 都 需要 在 要 求 的 时 候 激活 。 有 些 对 象 ， 例 如 由 客户 创建 的 回调 对 象 ， 
就 只 运行 一 次 ， 并 且 在 不 再 需要 的 时 候 便 停 止 存在 。 它 们 不 使 用 实现 仓库 。 

实现 仓库 一 般 允 许 存 储 关 于 每 个 服务 器 的 额外 信息 ， 例 如 关于 允许 谁 激活 它 或 者 调用 它 的 操 
作 这 类 访问 控制 信息 。 为 了 提供 可 用 性 或 者 容错 性 ， 信 息 有 可 能 会 在 实现 仓库 中 复制 。 

接口 仓库 ”接口 仓库 的 任务 是 将 关于 已 经 注册 过 的 IDL 接 口 的 信息 提供 给 需要 它 的 客户 和 服务 
器 。 对 于 一 个 给 定 类 型 的 接口 ， 它 可 以 提供 方法 的 名 字 ， 并 且 对 于 每 个 方法 ， 它 可 以 提供 参数 和 
异常 的 名 字 与 类 型 。 这 样 ， 接 口 仓库 提 拱 了 一 种 CORBA 对 象 的 反射 机 制 。 假 设 一 个 客户 程序 收 到 
一 个 新 的 CORBA 对 象 的 远程 引用 ， 再 假设 客户 还 没有 代理 ， 那 么 它 会 向 接口 仓库 询问 该 对 象 的 方 
法 和 它们 需要 的 每 一 个 参数 的 类 型 。 

当 个 IDL 编 译 器 处 理 一 个 接口 时 ， 它 为 每 个 遇 到 的 IDL 类 型 指定 一 个 类 型 标识 符 。 对 于 注册 
的 每 一 个 接口 ， 接 口 仓库 提供 一 个 该 接口 到 它 的 类 型 标识 符 的 映射 。 因 此 ， 一 个 接口 的 类 型 标识 
符 有 时 也 被 称 为 仓库 ID。 因 为 这 个 类 型 标识 符 可 以 作为 注册 在 接口 仓库 中 的 IDL 接 口 的 关键 字 。 

每 一 个 CORBA 远 程 对 象 引 用 都 包含 一 个 “ 樟 ” ， 它 包含 接口 的 类 型 标识 符 ， 并 且 人 允许 支持 它 
的 客户 通过 接口 仓库 来 查询 接 晶 的 类 型 。 使 用 带 有 客户 代理 和 IDL 上 骨架 的 静态 (普通 ) 调用 的 应 用 
不 需要 接口 仓库 。 并 不 是 所 有 的 ORB 都 提供 接口 仓库 。 

动态 调用 接口 ”正如 在 5.5 节 中 所 述 ， 在 某 些 应 用 程序 中 ， 有 必要 构造 -个 客户 程序 而 并 不 需 
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要 知道 它 将 来 可 能 使 用 的 代理 类 。 例 如 ， 一 个 对 象 浏览 器 可 能 需要 显示 分 布 式 系 统 中 各 种 服务 器 
上 可 用 的 CORBA 对 象 的 信息 。 让 这 样 一 个 程序 包含 所 有 这 些 对 象 的 代理 是 不 可 行 的 ， 特 别 是 随 着 
时 间 流 逝 又 会 有 新 的 对 象 添加 到 系统 中 。CORBA 不 允许 像 在 Java RMI 中 那样 ， 在 运行 时 下 载 代理 
类 。CORBA 的 方法 是 使 用 动态 调用 接口 。 

动态 调用 接口 允许 客户 动态 地 调用 远程 CORBA 对 象 ， 它 在 不 便 使 用 代理 的 时 候 使 用 。 客 户 能 
从 接口 仓库 获取 关于 给 定 CORBA 对 象 中 可 用 方法 的 必要 信息 。 客 户 可 以 利用 这 些 信息 构造 一 个 带 
有 合适 参数 的 调用 ， 并 将 它 发 送 给 服务 器 。 

动态 骨架 接口 ”正如 5.5 节 所 述 ， 有 时 一 个 服务 器 有 必要 添加 一 个 在 它 编译 时 接口 还 不 确定 的 
CORBA 对 象 。 如 果 服 务 器 使 用 动态 骨架 ， 则 它 可 以 接受 对 那些 没有 骨架 的 CORBA 对 象 的 调用 。 
当 动 态 骨 架 接 收 调用 的 时 候 ， 它 检查 请 求 的 内 容 以 查找 目标 对 象 、 待 调用 的 方法 和 参数 ， 然 后 它 
就 调用 这 个 目标 对 象 。 

遗留 代码 术语 适 留 代码 指 那些 已 经 存在 的 代码 ， 但 是 它们 并 不 是 按照 分 布 式 对 象 的 思想 设计 
的 。 遗 留 代 码 可 以 通过 为 它 定义 一 个 IDL 接 口 并 提供 合适 的 对 象 适配器 和 必要 骨架 的 一 个 实现 的 方 
式 ， 从 而 整合 到 CORBA 对 象 中 。 


20.2.3 CORBA 接 口 定义 语言 


CORBA 接 口 定 义 语 言 (IDL) 提供 了 定义 模块 、 接 口 、 类 型 、 属 性 和 方法 基调 的 机 制 。 除 了 
模块 之 外 ， 我 们 已 经 在 图 5-2 和 图 20-1 中 给 出 了 上 述 情况 的 相关 的 例子 。IDL 具 有 与 C++ 相 同 的 词汇 
规则 ， 而 且 它 还 有 一 些 附 加 的 关键 字 用 以 支持 分 布 性 ， 例 如 interface、any、attribute、in、out、 
inout、readonly 和 raise。 它 也 支持 标准 的 C++ 预 处 理 机 制 。 和 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
可 考虑 图 20-7 中 的 用 typedef 定 义 All 类 型 。1DL 的 语法 是 | "oe Weboore 
ANSI C++ 的 一 个 子 集 ， 并 且 有 支持 方法 标记 符 的 构造 函 oe 
数 。 我 们 在 这 里 只 给 出 了 IDL 的 一 个 简要 描述 。Baker struct GraphicalObject { 
[1997]、Henning 和 Vinoski [1999] 给 出 了 IDL 的 概述 和 许多 ee Shapef 
例子 。 完 整 的 规范 可 参见 OMG 站 点 [OMG 2002a]。 

IDL 模 块 ”模块 构造 支持 将 接口 和 其 他 IDL 类 型 定义 分 0 人 
组 为 逻辑 单元 。 一 个 模块 定义 了 一 个 名 字 域 ， 它 可 以 避免 
在 一 个 模块 内 定义 的 名 字 与 在 模块 外 定义 的 名 字 发 生 冲 到 
突 。 例 如 ， 接 HShape 和 ShapeList 的 定义 属于 一 个 称 为 
Whiteboard 的 模块 ， 参 见 图 20-7。 图 20-7 IDL 模 块 Whiteboard 

IDL 接 口 ” 正 如 我 们 已 看 到 的 ， 一 个 IDL 接 口 描述 了 实现 该 接口 的 CORBA 对 象 中 可 用 的 所 有 方 
法 。CORBA 对 象 的 客户 可 能 就 是 根据 其 IDL 接 口 的 知识 进行 开发 的 。 根 据 对 我 们 例子 的 研究 ， 读 
者 将 会 看 到 ， 一 个 接口 定义 了 一 系列 操作 和 属性 ， 并 且 通 常 依赖 于 的 一 系列 其 他 类 型 用 于 定义 该 
接口 。 例 如 ， 图 5-2 中 的 PersonList 接 口 定义 了 一 个 属性 、 三 种 方法 并 且 依赖 于 类 型 Person。 

1DL 方 法 ”方法 基调 的 通常 格式 是 : 

[ oneway ] < 返回 类 型 > < 方法 名 > (参数 1 , … , 参数 L ) 

[ raises ( 异常 1 ,… ,异常 N ) ] [ context ( 名 字 1 , … , 名 字 M ) ] 

其 中 ， 方 括号 中 的 表达 式 是 可 选 的 。 下 面 是 一 个 只 包含 必要 部 分 的 方法 基调 : 

void getPerson ( in string name , out Personp ) 

正如 20.2 节 解释 的 ， 参 数 被 标记 为 in、out 或 者 inout， 其 中 in 参 数 的 值 从 客户 传输 到 被 调用 的 
CORBA 对 象 ， 而 out 参 数 从 被 调用 的 CORBA 对 象 传递 到 客户 。inout 类 型 的 参数 极 少 使 用 ， 该 类 型 
表示 参数 值 可 以 双向 地 传输 。 如 果 没 有 返回 值 ， 可 以 将 返回 类 型 声明 为 void。 
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叮 选 的 oneway 表 达 式 表示 调用 方法 的 客户 将 不 会 在 目标 对 象 执行 该 方法 时 阻塞 。 另 外 ， 
oneway 调 用 或 者 被 执行 一 次 ， 或 者 根本 不 会 被 执行 ， 即 采用 的 是 或 许 调用 语义 。 我 们 在 20.2.1 节 看 
到 过 下 面 的 例子 : 

oneway void callback ( in int version ) ， 

在 该 例子 中 ， 服 务 器 在 每 添加 一 种 新 图 形 的 时 候 就 调用 客户 ， 偶 尔 丢 失 一 次 请 求 也 不 会 给 客 
户 带 来 问题 ， 因 为 该 调 用 只 指出 最 新 的 版 本 号 ， 而 且 后 续 的 调用 也 未 必 会 再 丢失 。 

可 选 的 raises 表 达 式 表示 用 户 定义 的 异常 ， 可 以 抛 出 这 些 异常 来 终止 方法 的 执行 。 例 如 ， 考 虑 
图 20-1 中 的 例子 : 

exception FullException{ }» 

Shape newShape (in GraphicalObject g ) raises { FullException ); 

newShape 方 法 带 有 raises 表 达 式 ， 它 可 以 抛 出 一 个 称 为 FullException 的 异常 ， 该 异常 定义 在 
ShapeList 接 口中 。 在 我 们 的 例子 中 ， 蜡 常 不 包括 变量 。 但 是 ， 异 常 也 可 以 定义 为 包含 变量 ， 例 如 ， 

exception FullException { GraphicalObject g }; 

当 抛 出 包含 变量 的 异常 时 ， 服 务 器 可 以 使 用 这 些 变 量 ， 将 与 异常 的 上 下 文 返回 给 客户 。 

CORBA 也 能 创建 与 服务 器 问题 相关 的 系统 异常 ， 例 如 由 干 它们 太 忙 或 者 无 效 了 而 无 法 激活 ， 
还 能 创建 与 通信 和 客户 问题 相关 的 系统 异常 。 客 户 程序 应 该 处 理 用 户 定义 的 异常 和 系统 异常 。 可 
选 的 context 表 达 式 用 于 提供 从 字符 串 名 到 字符 串 值 的 映射 。 参 见 Baker[1997] 对 context 的 解释 。 

1DL 类 型 IDL 支 持 1S 种 简单 类 型 ， 包 括 short (16 位 )、 long (32 位 ) ，unsigned short 、 
unsigned long、float (32 位 )、double (64 位 ) 、char、boolean (TRUE, FALSE)、octet (8 位 ) 和 
any 类 型 ( 它 能 表示 任何 一 种 简单 类 型 或 者 构造 类 型 )。 大 多 数 简单 类 型 的 常数 和 常数 字符 串 都 可 
以 使 用 const 关 键 字 声明 。IDL 提 供 一 种 特殊 的 类 型 ， 称 为 Object， 它 的 值 是 远程 对 象 引 用 。 如 果 一 





个 参数 或 者 结果 是 Object 类 型 ， 那 么 对 应 的 参数 可 以 指 任何 CORBA 对 象 。 
IDL 的 构造 类 型 在 图 20-8 中 给 出 ， 这 些 类 型 在 作为 参数 或 结果 时 都 是 以 值 传递 的 。 所 有 用 作 参 
数 的 序列 和 数组 必须 以 typedef 定 义 。 简 单 或 者 构造 数据 类 型 都 不 能 包含 引用 .。 








Rectangle enclosing ; 
boolean isFilled ; 


上 


case Exp: string vote ; 
case Number: long n ; 


case Name: string S : 
}; 





枚 举 enum Rand IDL 中 的 枚 举 类 型 将 -- 个 类 型 名 映射 到 一 个 小 的 整 
{Exp, Number, Name) ; 数值 集合 中 
联合 union Exp switch ( Rand } { 可 区 分 的 IPL 联 合 允 许 一 个 给 定 的 类 型 集合 作为 一 


个 参数 传输 。 头 部 由 一 个 enum 参 数 化 ， 该 enum 指 定 
正在 使 用 哪 种 类 型 


| 类 加 举例 使 用 | 
序列 typedef sequence<Shape.100> All; 定义 变 长 序列 类 型 ， 序 列 元 素 为 某 种 IDL 类 型 。 可 | 
typedef sequence<Shape> All 以 指定 长 度 的 上 界 
有 界 和 无 界 的 Shape 序 列 
字符 申 string name : 定义 以 空 字符 结束 的 字符 串 序 列 。 可 以 指定 长 度 的 
typedef string<8> SamllString ; 上 界 
右 界 和 无 办 的 字符 序列 
数组 typedef octet uniqueld[ 121]; 定义 多 维 定 长 序列 类 型 ， 序 列 元 素 是 基 种 IDL 类 型 
typedef GraphicalObject GOI101(81 
记 波 struct GraphicalObject { 定义 包含 一 组 相关 实体 的 记录 类 型 。struct 在 参数 
string type ; 和 结果 中 以 值 传递 








图 20-8 


IDL 构 造 类 型 
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属性 除了 方法 ，IDL 接 口 还 可 以 有 属性 。 属 性 类 似 于 Java 中 的 公用 类 域 。 属 性 可 以 在 需要 时 
定义 为 readonly。 对 CORBA 对 象 来 说 ， 属 性 是 私有 的 ， 但 是 对 于 每 个 声明 过 的 属性 ， 都 会 由 IDL 
编译 器 自动 创建 一 对 存 取 方法 ， 一 个 方法 获取 属性 的 值 ， 另 一 个 方法 设置 属性 的 值 。readonly 属 
性 只 能 提供 getter 方 法 。 例 如 ， 定 义 在 图 $-2 中 的 PersonList 接 口 包括 如 下 的 属性 定义 : 

readonly atiribute string listname ; 

继承 ”IDL 接 日 可 以 扩展 。 例 如 ， 如 果 接 口 B 扩 展 了 接口 A， 这 意味 着 它 可 以 在 A 的 基础 上 添加 
新 的 类 型 、 常 数 、 异 常 、 方 法 和 属性 。 一 个 被 扩展 的 接口 可 以 重新 定义 类 型 、 常数 和 异常 ， 但 是 
不 允许 重新 定义 方法 。 扩 展 类 型 的 值 作为 父 类 参数 或 者 结果 的 值 是 合法 的 。 例 如 ， 类 型 B 作 为 类 型 
A 的 参数 或 者 结果 的 值 是 合法 的 。 

interface A{ }; 

interflace B :Af}; 

interface C{}; 

interface Z :B,C{}; 

另外 ，IDL 接 口 可 以 扩展 不 止 一 个 接口 。 例 如 ， 接 口 Z 扩 展 了 B 和 C。 这 意味 着 Z 具 有 B 和 C 的 所 
有 组 件 (不 包括 它 重新 定义 的 组 件 ) 以 及 它 扩展 定义 的 部 分 。 

当 一 个 像 Z 这 样 的 接口 扩展 了 不 止 一 个 接口 的 时 候 ， 它 就 有 可 能 会 继承 来 自 两 个 不 同 接口 却 具 
有 相同 名 字 的 类 型 、 常 数 或 者 异常 。 例 如 ， 假 设 B 和 C 都 定义 了 一 种 称 为 Q 的 类 型 ， 那 么 在 Z 接 口中 
Q 的 使 用 就 是 不 明确 的 ， 除 非 给 出 其 域名 ， 比 如 B::Q 或 者 C::Q。IPL 不 允许 一 个 接口 从 两 个 不 同 接 
口 继承 带 有 相同 名 字 的 属性 或 者 方法 。 

所 有 IDL 接 口 都 继承 自 Object 类 型 ， 它 意味 着 所 有 的 IDL 接 口 都 与 Object 类 型 兼容 。 这 使 定义 
能 将 任意 类 型 的 远程 对 象 引 用 作为 参数 处 理 或 者 作为 结果 返回 的 IDL 操 作成 为 可 能 。 名 字 服 务 中 的 
bind 和 resolve 操 作 就 是 这 样 的 例子 。 

lIDL 类 型 标识 符 ”20.2.2 节 提 到 , 由 IDL 编 译 器 为 IDL 接 口中 的 每 种 类 型 创建 唯一 的 类 型 标识 符 。 
例如 ，Shape 接 口 类 型 的 IDL 类 型 ( 见 图 20-7) 可 能 是 : 

IDL: Whiteboard/ Shape : 1.0 

这 个 例子 表明 ， 一 个 IDL 类 型 名 有 三 个 部 分 ， 即 1DL 前 级 、 类 型 名 和 版 本 号 。 由 于 接口 标识 和 
被 用 作 访 问 接口 仓库 中 接口 定义 的 关键 字 ， 因 此 程序 员 必 须 保证 提供 一 个 从 接口 标识 符 到 接口 的 
唯一 映射。 程序 员 可 以 使 用 LDL 前 缓 杂 注 将 -- 个 附加 的 字符 串 作为 类 型 名 的 前 组 ， 以 便 将 程序 员 自 
己 的 类 型 和 其 他 程序 员 的 类 型 区 分 开 来 。 

IDL 杂 注 指令 : IDL 杂 注 指令 允许 为 IDL 接 口中 的 组 件 指定 附加 的 非 IDL 属 性 ( 见 Henning and 
Vinoski [1999])。 这 些 属性 包括 (例如 ) 定义 一 个 仅 能 被 本 地 调用 的 接口 ， 或 者 提供 一 个 接口 仓库 
的 ID 值 。 每 一 个 杂 注 都 要 通过 #pragma 指 定 ， 并 且 要 声明 它 的 类 型 ， 例 如 : 

#pragma version Whiteboard 2.3 

对 CORBA 的 扩展 CORBA 2.3 规 约 又 添加 了 一 些 新 的 特征 ， 包 括 以 值 传递 方式 传输 非 CORBA 
对 象 的 能 力 以 及 RMI 异 步 变 量 。Vinoski[1998] 在 CACM 的 文章 讨论 『 上述 内 容 。 

按 值 传 递 的 对 象 : 正如 我 们 在 上 面 所 看 到 的 ， 构造 类 型 和 简单 类 型 的 IDL 参 数 和 结果 都 是 以 
值 传递 的 ， 而 那些 指向 CORBA 对 象 的 参数 和 结果 是 以 引用 传递 的 。CORBA 规 约 已 经 支持 以 值 传 
递 非 CORBA 对 象 [OMG 2002c]。 那 些 非 CORBA 对 象 既 有 属性 又 有 方法 ， 从 这 个 意义 上 说 它们 类 似 
对 象 。 但 是 ， 它 们 仅仅 是 本 地 对 象 ， 所 以 它们 的 操作 不 能 被 远程 调用 。 按 值 传递 的 方式 能 够 将 非 
CORBA 对 象 的 副本 在 客户 和 服务 器 之 间 传递 。 

按 值 传递 是 通过 将 一 种 用 以 表示 非 CORBA 对 象 的 称 为 valuetype 的 类 型 附加 到 1DL 中 实现 的 。 
valuetype 是 一 种 附加 了 方法 基调 的 结构 (和 接口 中 的 那些 结构 类 似 ) 。valuetype 类 型 的 参数 和 结果 


是 按 值 传递 的 ， 也 就 是 说 ， 状 态 被 传输 到 远程 站 点 ， 并 用 于 在 目的 地 上 创建 一 个 新 的 对 象 。 

新 对 象 的 方法 可 以 在 本 地 调用 ， 使 它 的 状态 脱离 了 原来 对 象 的 状态 。 传 递 方法 的 实现 不 太 直 
观 ， 因 为 客户 和 服务 器 可 能 使 用 不 同 的 语言 。 然 而 ， 如 果 客 户 和 服务 器 都 用 Java 实 现 的 话 ， 那 么 就 
可 以 下 载 代码 。 对 于 C++ 语言 的 实现 ， 需 要 在 客户 和 服务 器 上 提供 必要 的 代码 。 

按 值 传递 带 来 的 便利 是 很 有 用 的 ， 例 如 将 一 个 对 象 的 副本 作为 值 传递 给 客户 端 进程 ， 从 而 能 
够 对 该 对 象 方便 地 使 用 本 地 调用 。 但 是 ， 这 并 不 意味 着 我 们 可 以 将 CORBA 对 象 作 为 值 来 传递 。 

异步 RMI: CORBA 现 在 提供 一 种 异步 的 RMI， 它 允许 客户 端 实现 对 CORBA 对 象 的 无 阻塞 的 调 
用 请 求 [OMG 2004e]。 异 步 RMI 是 在 客户 端 实现 的 。 因 此 ， 服 务 器 并 不 能 了 解 它 是 被 同步 调用 的 还 
是 异步 调用 的 。( 一 个 例外 情况 是 传输 服务 ， 它 必须 区 分 这 两 种 调用 。) 

异步 RMI 在 RMI 调 用 语义 的 基础 上 增加 了 两 个 新 的 变量 : 

。 回调 是 指 客户 在 每 一 次 调用 时 , 使 用 一 个 额外 的 参数 向 被 调用 者 传递 一 个 回调 的 引用 。 这样， 

服务 器 就 可 以 带 着 结果 回调 。 

“。 轮 询 是 指 服务 器 返回 一 个 valuetype 对 象 ， 它 可 以 用 于 轮 询 或 等 待 应 答 。 

异步 RMI 的 结构 允许 部 署 一 个 中 间 代 理 来 保证 请 求 的 执行 ， 并 且 如 果 需 要 的 话 ， 中 间 代 理 还 
要 保存 应 答 。 因 此 ， 异 步 RMI 非 常 适合 在 客户 可 能 暂时 无 法 联网 的 环境 中 使 用 ， 例 如， 在 火车 上 
使 用 笔记 本 电脑 的 用 户 。 


20.2.4 CORBA 远 程 对 象 引 用 


CORBA 2.0 规 范 描述 了 一 种 实用 的 远程 对 象 引用 的 格式 ， 而 不 管 该 远程 对 象 是 否 是 被 实现 仓 
库 激活 的 。 采 用 这 种 格式 的 引用 称 为 互 操 作对 象 引用 (IOR) 。 下 表 基 于 Henning [1998] 的 描述 ， 它 
包括 了 IOR 的 详细 说 明 : 
IOR 格 式 
IDL 接口 类 型 ID 协议 和 地 址 细节 对 象 关 键 字 






Mh PR 


*IOR 的 第 一 个 域 说 明 CORBA 对 象 的 IDL 接 口 的 类 型 标识 符 。 注意 ， 如果 ORB 有 一 个 接口 仓库 ， 
那么 这 个 类 型 名 也 是 IDL 接 口 的 接口 仓库 标识 符 ， 它 允许 在 运行 时 获取 一 个 接口 的 IDL 定 义 。 
。 第 二 个 域 说 明 传 输 协议 和 该 传输 协议 用 以 识别 服务 器 的 具体 要 求 。 特 别 是 ， 因 特 网 ORB 互 操 
作协 议 〈IIOP) 使 用 的 是 TCP/IP， 其 中 ， 服 务 器 地 址 由 一 个 主机 域名 和 一 个 端口 号 组 成 。 

“第 三 个 域 由 ORB 使 用 ， 用 于 标识 一 个 CORBA 对 象 。 它 包括 服务 器 中 对 象 适配器 的 名 称 和 由 

对 象 适配器 指定 的 CORBA 对 象 的 对 象 名 。 

CORBA 对 象 的 暂 态 IOR 持 续 的 时 间 只 和 驻 留 这 些 对 象 的 进程 一 样 长 ， 而 持久 性 IOR 能 在 CORBA 
对 象 激活 的 时 间 中 持续 存在 。 暂 态 IOR 包 含 了 驻 留 CORBA 对 象 的 服务 器 的 具体 地 址 ， 而 持久 性 IOR 
包含 了 它 所 注册 的 实现 仓库 的 具体 地 址 。 在 这 两 种 情形 下 ， 客 户 ORB 都 发 送 请 求 消息 给 在 IOR 中 给 
出 了 有 具体 地 址 的 服务 器 。 我 们 现在 讨论 两 种 情形 下 IOR 如 何 用 于 定位 代表 CORBA 对 象 的 伺服 器 。 

暂 态 IJOR: 服务 器 ORB 核 心 接收 到 包含 对 象 适配器 名 和 目标 对 象 名 的 请 求 消息 。 它 利用 对 象 适 
配器 名 来 定位 对 象 适配器 ， 对 象 适配器 再 使 用 对 象 名 定位 到 伺服 器 。 

持久 IOR: 实现 仓库 接收 到 请 求 ， 然 后 ， 从 请 求 的 IOR 中 抽取 出 对 象 适 配器 名 。 假 设 在 IOR 表 
里 提供 了 对 象 适配器 的 名 字 ， 如 果 必 要 的 话 它 会 尝试 激活 IOR 表 中 所 指定 的 主机 地 址 上 的 CORBA 
对 象 。 一 旦 激活 CORBA 对 象 ， 实 现 仓库 就 将 它 的 地 址 细节 返回 到 客户 ORB， 客 户 ORB 将 它们 用 作 
RMI 请 求 消息 的 目的 地 (请 求 消息 包括 对 象 适 配器 名 和 对 象 名 ) 。 这 些 使 服务 器 ORB 核 心 可 以 定位 
对 象 适 配器 ， 和 前 面 一 样 ， 对 象 适 配器 再 利用 对 象 名 定位 伺服 器 。 
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IOR 格 式 中 的 第 二 个 域 可 以 重复 出 现 ， 从 而 可 以 指定 多 于 一 个 目的 地 的 主机 域名 和 端口 号 ， 以 
使 对 象 或 者 实现 仓库 被 复制 到 几 个 不 同 的 地 方 。 

在 请 求 - 应 答 协 议 中 ， 应 答 消 息 包 括 头 信息 ， 头 信息 使 持久 IOR 的 过 程 能 被 执行 。 特 别 是 ， 它 
包括 一 个 状态 项 ， 该 项 用 于 标识 出 请 求 是 否 应 该 被 转发 到 其 他 的 服务 器 。 在 此 情形 下 ， 应 答 体会 
包括 一 个 IOR， 该 IOR 含 有 最 近 被 激活 的 对 象 的 服务 器 地 址 。 


20.2.5 CORBA 语 言 映射 


从 上 面 的 例子 我 们 已 经 看 到 ， 从 IDL 的 类 型 映射 到 Java 类 型 是 非常 直观 的 。IDL 中 的 简单 类 型 
映射 到 Java 中 相应 的 简单 类 型 。struct、enum 和 union 被 映射 为 Java 中 的 类 ，IDL 中 的 序列 和 数组 被 
映射 为 Java 中 的 数组 。 一 个 IDL 异 常 映射 为 一 个 Java 类 ， 该 类 提供 具有 这 个 1DL 噶 常 域 的 实例 变量 
和 构造 冰 数 。IDL 到 C++ 的 映射 同样 也 很 直观 。 | 

但 是 , 我 们 也 已 经 看 到 ， 在 将 IDL 的 参数 传递 语义 映射 到 Java 的 时 候 出 现 了 一 些 困难 。 尤 其 是 ， 
IDL 人 允许 方 法 通过 输出 参数 返回 几 个 单独 的 值 ， 而 Java 只 能 返回 一 个 结果 。Java 提 供 了 Holder 类 来 
克服 这 种 差异 ， 但 是 这 就 要 求 程序 员 来 使 用 它们 ， 它 们 的 使 用 并 不 是 很 容易 。 例 如 ， 图 5-2 中 的 
getPerson 方 法 用 IDL 可 定义 成 如 下 形式 : 

void getPerson ( in string name , out Personp ); 

而 在 Java 接 口中 该 方法 的 定义 为 : 

void getPerson { String name , PersonHolder p ); 

客户 必须 提供 一 个 PersonHolder 的 实例 作为 它 的 调用 的 参数 。Holder 类 有 一 个 实例 变量 ， 它 拥 
有 参数 的 值 ， 以 便 客户 在 调用 返回 的 时 候 访问 该 值 。Holder 类 也 具有 在 客户 和 服务 器 之 间 传 输 参 
数 的 方法 。 

虽然 CORBA 的 C++ 实 现 能 非常 自然 地 处 理 out 和 inout 参 数 ， 但 是 C++ 程 序 员 却 要 处 理由 参数 带 
来 的 与 存储 管理 相关 的 一 系列 问题 。 这 些 困难 在 对 象 引 用 和 变 长 实体 (如 字符 串 或 者 序列 等 ) 作 
为 参数 传递 的 时 候 出 现 。 

例如 ， 在 Orbix[Baker 1997] 中 ，ORB 负 责 保存 远程 对 象 的 引用 计数 和 代理 ， 并 在 不 需要 时 释 
放 它 们 。ORB 为 程序 员 提 供 释放 或 者 复制 它们 的 方法 。 一 旦 一 个 服务 器 的 方法 执行 完毕 ， 就 释放 
out 参 数 和 结果 ， 如 果 还 需要 它们 ， 程 序 员 就 必须 复制 它们 。 例 如 ， 一 个 实现 ShapeList 接 口 的 C++ 
伺服 器 需要 复制 由 allShapes 方 法 返回 的 引用 。 当 不 再 需要 的 时 候 ， 必 须 释放 传递 给 客户 的 对 象 引 
用 。 类 似 的 规则 也 应 用 在 变 长 参数 中 。 

通常 ， 使 用 IDL 的 程序 员 不 仅 必须 学 习 IDL 自 身 的 表示 法 ， 还 要 理解 它 的 参数 怎样 映射 到 实现 
语言 的 参数 上 。 


20.2.6 CORBA 与 Web 的 集成 


当 Web 服 务 在 21 世 纪 早 期 刚刚 出 现 的 时 候 ，CORBA 已 经 比较 完善 ， 并 且 在 各 个 组 织 中 获得 了 
广泛 应 用 。 第 19 章 讨论 过 ，Web 服 务 非常 适合 于 基于 因特网 的 各 组 织 之 间 的 协作 。19.2.4 节 曾 对 
Web 服 务 和 CORBA 进 行 比较 ， 结 果 显示 ， 虽 然 CORBA 不 适合 需要 交互 的 机 构 的 分 布 式 应 用 ， 但 是 
它 的 好 处 体现 在 效率 方面 以 及 它 能 提供 一 系列 用 于 事务 、 并 发 控制 、 安 全 服务 等 方面 的 服务 ( 见 
20.3 节 ) 。 

许多 组 织 都 依赖 于 CORBA 应 用 以 及 它 在 可 靠 性 与 高 性 能 方面 的 优势 。 但 是 ， 将 CORBA 服 务 
与 Web 服 务 整合 可 以 获得 额外 的 好 处 。 一 个 有 用 的 方法 就 是 为 现 有 的 CORBA 服 务 提供 一 种 WSDL 
服务 描述 ( 见 19.3 节 )。 一 个 CORBA 对 象 的 IDL 定 义 可 以 通过 XML 在 WSDL 服 务 描述 的 抽象 部 分 表 
达 ， 通信 协议 (例如 IIOP) 可 以 在 WSDL 服 务 描述 的 具体 部 分 描述 。 

这 就 允许 客户 像 访 问 其 他 Web 服 务 一 样 访问 CORBA 对 象 。 一 旦 这 成 为 可 能 ， 那 么 就 可 以 通过 
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结合 带 有 Web 服 务 接口 的 CORBA 服 务 同 其 他 Web 服 务 来 构建 新 的 Web 服 务 。 这 也 可 以 使 CORBA 服 
务 的 用 户 同时 获得 Web 服 务 的 灵活 性 与 轻 量 级 基础 结构 等 好 处 。 

在 2004 年 的 秋季 ，OMG 提 倡 将 CORBA 绑 定 到 WSDL， 这 些 倡议 包括 : 

。 将 IDL 定 义 的 CORBA 接 口 映 射 为 WSDL 描 述 。 

。 将 IDL 类 型 映射 为 XML schema 类 型 。 

。 建 立 一 种 按照 CORBA 对 象 要 求 的 通信 机 制 ， 但 却 可 以 像 访 问 Web 服 务 一 样 访问 CORBA 对 象 

实例 的 机 制 。 

一 且 这 项 工作 完成 ， 就 可 以 用 WSDL 表 示 现 有 的 CORBA 服 务 的 接口 。 客 户 可 以 像 访 问 Web 服 
务 一 样 访问 那些 接口 ， 而 无 需 知道 底层 CORBA 中 间 件 的 具体 实现 。 客 户 程 序 可 以 被 编译 为 使 用 
WSDL 比 定 所 定义 的 消息 格式 、 数 据 表示 和 通信 协议 。 它 们 通过 URL 表 示 CORBA 对 象 的 地 址 ， 但 
是 那些 CORBA 对 象 要 转变 为 IOR。 


20.3 CORBA 服 务 


CORBA 包 括 分 布 式 对 象 可 能 需要 的 服务 的 规范 。 特 别 是 ， 名 字 服 务 是 对 任何 ORB 的 基本 补充 ， 
正如 我 们 在 20.2 节 的 编程 例子 中 所 看 到 的 。 所 有 这 些 服务 的 索引 可 在 OMG 的 Web 站 点 上 找到 
[www.omg.org]。Orfali 等 [1996] 对 CORBA 服 务 进行 了 描述 ， 这 些 服务 包括 : 

名 字 服 务 : CORBA 名 字 服 务 在 20.3.1 节 详细 介绍 。 

事件 服务 和 通知 服务 : CORBA 事 件 服务 在 20.3.2 节 中 讨论 ， 通 知 服务 在 20.3.3 节 讨论 。 

安全 服务 : CORBA 安 全 服务 在 20.3.4 节 中 讨论 。 

交易 服务 : 与 名 字 服务 允许 CORBA 对 象 按 名 字 定 位 相反 ， 交 易 服 务 [OMG 2000a] 人 允许 CORBA 
对 象 按 属 性 定位 一 一 它 是 一 种 目录 服务 。 它 的 数据 库 包括 一 个 从 服务 类 型 和 它 的 相关 属性 到 
CORBA 对 象 的 远程 对 象 引用 的 映射 。 服 务 类 型 是 一 个 名 字 ， 每 个 属性 都 是 一 个 名 -- 值 对 。 客 户 通 
过 指定 所 要 求 的 服务 类 型 、 对 属性 值 的 约束 以 及 匹配 项 的 优先 顺序 来 进行 查询 。 交 易 服 务 器 可 以 
形成 联盟 ， 以 这 种 方式 它们 不 仅 可 以 使 用 自己 的 数据 库 ， 而 且 还 可 以 代表 另 一 个 客户 执行 查询 。 
交易 服务 更 详细 的 描述 参见 Henning 和 Vinoski[1999]。 

享 务 服务 和 并 发 控制 服务 : 对 象 事务 服务 [OMG 2003] 人 允许 分 布 式 CORBA 对 象 参与 到 平面 或 伐 
套 的 事务 中 。 客 广 将 事务 描述 成 一 系列 RMI 调 用 ， 它 从 begin 开 始 ， 由 commit 或 者 rollback (abort) 
终止 。ORB 将 事务 标识 符 附 加 到 每 个 远程 调用 上 ， 并 处 理 begin、commit 和 rollback 请 求 。 客 户 也 可 
以 挂 起 和 恢复 事务 。 事 务 服务 执行 两 阶段 提交 协议 。 并 发 控制 服务 [OMG 20006b1 把 锁 应 用 到 访问 
CORBA 对 象 的 并 发 控制 中 。 它 可 以 在 事务 内 部 使 用 ， 也 可 以 独立 地 使 用 。 

持久 状态 服务 : 5.2.5 节 解释 了 在 不 需要 时 通过 在 持久 对 象 存储 中 以 被 动 形式 存储 来 实现 持久 
对 象 ， 而 在 需要 时 激活 这 些 对 象 的 方法 。 虽 然 ORB 激 活 带 有 持久 对 象 引 用 的 CORBA 对 象 ， 并 根据 
实现 仓库 取得 它们 的 实现 ， 但 是 它们 并 不 负责 保存 和 恢复 CORBA 对 象 的 状态 。 

CORBA 持 和 久 状态 服务 适用 于 CORBA 对 象 的 持久 对 象 存储 [OMG 2002d]。CORBA 持 久 状 态 服 
务 取代 了 较 早 的 持久 对 象 服务 。 持 久 对 象 服务 基于 下 面 的 结构 ,伺服 器 能 够 通过 内 部 接口 访问 数 
据 存 储 ， 例 如 数据 库 或 文件 系统 。 用 于 表示 持久 对 象 的 伺服 器 被 称 为 在 储 对 象 ， 它 们 被 保存 在 服 
务 器 进程 和 数据 存储 的 存储 家 园 中 。 每 一 个 存储 家 园 仅 包含 一 种 类 型 的 存储 对 象 。 一 种 类 似 Java 的 
语言 可 以 用 来 定 又 存储 对 象 的 接口 ， 并 且 将 这 些 接口 与 存储 家 园 关 联 起 来 。 伺 服 器 可 以 创建 并 且 
访问 它 的 存储 家 园 中 的 存储 对 象 。 存 储 对 象 也 可 以 通过 -一些 程序 设计 语言 ， 如 Java 和 C++， 透 明 地 
使 用 。 为 了 保证 透明 持久 性 ， 预 处 理 器 插入 一 些 在 伺服 器 与 数据 存储 之 间 传 输 对 象 的 操作 。 持 久 
状态 服务 用 于 事务 服务 中 的 事务 的 上 下 文中 。 

生命 周期 服务 : 生命 周期 服务 定义 了 CORBA 对 象 的 生成 、 删 除 、 复 制 和 移动 的 约定 。 它 定义 
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了 客户 如 何 使 用 工厂 方法 在 某 个 位 置 创建 对 象 ， 并 且 在 需要 的 时 候 允 许 使 用 持久 对 象 。 它 定义 了 
大 许 客户 删除 CORBA 对 象 ， 或 将 对 象 移动 或 复制 到 指定 对 象 的 接口 。 其 中 还 讨论 了 深 找 贝 与 浅 找 
贝 的 策略 问题 [OMG 2002e]。 

20.3.1 CORBA 名 字 服 务 


CORBA 名 字 服 务 是 第 5 章 描 述 的 绑 定 程序 的 一 个 更 复杂 的 版 本 。 它 在 名 字 上 下 文 范围 内 将 名 
字 绑 定 到 CORBA 对 象 的 远程 对 象 引 用 上 。 

正如 第 9.2 节 解释 的 ， 名 字 上 下 文 是 一 系列 名 字 应 用 的 范围 一 -在 上 下 文中 的 每 个 名 字 必 须 是 
唯一 的 。 名 字 可 能 与 一 个 应 用 中 的 CORBA 对 象 的 对 象 引 用 相关 ， 或 者 与 名 字 服务 中 另 一 个 上 下 文 
相关 。 上 下 文 可 以 冉 套 在 一 起 ， 提 供 一 种 层次 化 的 名 字 空间 ， 如 图 20-9 所 示 ， 其 中 CORBA 对 象 正 
常 显示 ， 而 名 字 上 下 文 以 无 色 椭 辐 显示 。 左 边 的 图 形 显示 了 20.2.1 节 编程 实例 中 描述 的 ShapeList 对 
象 的 项 。 


初始 名 宁 上 上 下文 
、 
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图 20-9 CORBA 名 字 服 务 中 的 名 字 图 


初始 名 字 上 正文 提供 了 用 于 -- 系 列 绑 定 的 根 。 注 意 ， 可 能 有 不 止 一 个 初始 名 字 上 下 文 指 向 同 
一 个 名 字 图 。 实 际 上 ，ORB 的 每 个 实例 都 有 一 个 初始 名 字 上 下 文 ， 但 是 与 不 同 ORB 关 联 的 名 字 服 
务 器 可 以 形成 联盟 ， 这 将 在 本 节 的 后 面 介绍 。 客 户 和 服务 器 程序 需要 从 ORB 获 取 初 始 名 字 上 下 文 ， 
这 通过 调用 ORB 的 方法 resolve_initial_references， 并 以 “NameService” 作为 参数 来 完成 ， 参 见 
图 20-5。ORB 返 回 一 个 NamingContext 类 型 的 对 象 的 引用 ， 参 见 图 20-10， 它 指向 那个 ORB 的 名 字 
服务 器 的 初始 上 下 文 。 因 为 可 能 会 有 多 个 初始 上 下 文 ， 所 以 对 象 没 有 绝对 的 名 字 - 一 -名 字 总 是 相 
对 于 一 个 初始 名 字 上 下 文 来 解释 的 。 






















Struct NameComponent { string id ; string kind ; }; 
typedef sequence < NameComponent > Name : 
interface NamingContexi { 

void bind (in Name n ,in Object obj }; 

信 该 上 上下文 中， 将 给 定 的 名 宁 和 远程 对 象 引用 绑 定 在 … 起 。 

void unbind { in Name n ): 

按 给 定名 字 删 除 … 个 已 存在 的 绑 定 。 

void bind_new_context{ in Namen ); 

创建 一 个 新 的 名 字 上 下 文 ， 并 将 它 与 原 上 下 文中 一 个 给 定 的 名 字 绑 定 在 -起 。 
Object resolve ( in Name n }; 

在 该 上 下 文中 查找 该 名 宁 ， 并 返回 它 的 远程 对 象 引 用 。 

void list { in unsigned long how_many , out BindingList bl , out Bindinglterator bi ); 


返回 该 上 下 文 里 绑 定 中 的 名 字 。 





图 20-10 IDL 中 CORBA 名 字 服 务 的 NamingContext 接 口 
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一 个 带 有 一 个 或 者 多 个 组 成 部 分 的 名 字 可 以 在 任意 名 字 上 下 文中 开始 进行 解析 。 为 了 解析 一 个 
具有 多 个 组 成 部 分 的 名 字 ， 名 字 服 务 在 起 始 的 上 下 文中 查找 与 第 一 个 成 分 相 匹 配 的 一 个 绑 定 。 如 果 
存在 这 样 的 绑 定 ， 它 要 么 是 一 个 远程 对 象 引 用 ， 要 么 是 到 另 一 个 名 字 上 下 文 的 引用 。 如 果 结 果 是 一 
个 名 字 上 下 文 ， 那 么 名 字 的 第 二 个 组 成 部 分 就 在 那个 上 下 文中 解析 。 这 个 过 程 不 断 重 复 ， 直 到 名 字 
的 所 有 组 成 部 分 都 已 经 被 解析 ， 并 且 最 终 取得 了 一 个 远程 对 象 引 用 为 止 ， 除 非 中 途 匹 配 失败 。 

CORBA 名 字 服 务 使 用 的 名 字 由 两 部 分 组 成 ， 称 为 NameComponents， 其 中 每 个 NameComponents 
包括 两 个 字符 串 ， 一 个 是 名 字 ， 另 一 个 是 对 象 的 种 类 。 种 类 域 提 供 一 个 为 应 用 所 采用 的 属性 ， 并 且 
可 以 包含 一 些 有 用 的 描述 信息 。 它 不 由 名 字 服 务 解释 。 

尽管 CORBA 对 象 由 名 字 服 务 给 出 了 层次 化 的 名 字 ， 但 是 这 些 名 字 不 能 像 UNIX 文 件 那样 表示 
为 路 径 名 。 所 以 在 图 20-9 中 ,我们 不 能 用 /V/T 表 示 最 右边 的 对 象 。 这 是 因为 名 字 可 能 包括 任意 字符 ， 
它 排 除了 具有 分 隔 符 的 可 能 性 。 

图 20-10 给 出 了 CORBA 名 字 服 务 的 NamingContext 类 提供 的 主要 操作 ， 它 们 是 用 CORBA IDL 
语言 定义 的 。 完 整 的 规范 可 以 从 [OMG 2004b] 处 获得 。 为 了 简单 起 见 ， 我 们 在 图 中 没有 给 出 方法 抛 
出 的 异常 。 例 如 ，resolve 方 法 可 能 抛 出 NotFound 异 常 ， 而 bind 方 法 可 能 抛 出 AireadyBound 异 常 。 

客户 使 用 resolve 方 法 按 名 字 查 找 对 象 引 用 ， 它 的 返回 类 型 是 Object， 因 此 它 可 以 返回 属于 应 
用 的 任意 类 型 对 象 的 引用 。 返 回 结果 必 须 先进 行 类 型 缩小 ， 然 后 才能 用 于 调用 一 个 应 用 程序 的 远 
程 对 象 的 方法 ， 参 见 图 20-5 标 号 为 2 的 行 。Resolve 的 参数 是 Name 类 型 的 ， 它 被 定义 为 一 个 名 字 组 
成 部 分 的 序列 。 这 意味 着 客户 在 调用 之 前 必须 构造 一 个 名 字 组 成 部 分 的 序列 。 图 20-5 给 出 了 一 个 
客户 ， 它 创建 了 一 个 称 为 path 的 数组 ， 其 中 包含 了 一 个 名 字 组 件 ， 并 将 它 用 作 resolve 方 法 的 参数 。 
这 似乎 并 不 是 一 种 很 方便 使 用 正常 路 径 名 的 方法 。 

远程 对 象 的 服务 器 采用 bind 操 作 来 注册 对 象 的 名 字 ， 并 采用 unbind 操 作 删 除 它们 。bind 操 作 将 
一 个 给 定 的 名 字 与 远程 对 象 引 用 绑 定 在 一 起 ， 并 可 以 在 添加 绑 定 的 上 下 文中 调用 它 。 参 见 图 20-4， 
图 中 名 字 ShapeList 被 限制 在 初始 名 字 上 下 文中 。 在 该 例子 中 ， 如 果 在 调用 bind 操 作 的 时 候 ， 所 采 
用 的 名 字 已 经 有 一 个 绑 定 的 话 ， 就 会 抛 出 一 个 异常 ， 而 rebind 操 作 是 允许 绑 定 被 替代 的 ， 所 以 这 时 
可 采用 rebind 方 法 。 

bind_new_context 操 作用 于 创建 一 个 新 的 上 下 文 ， 并 将 它 与 原 上 下 文中 的 一 个 给 定 的 名 字 绑 定 
在 -起 。 另 一 个 称 为 bind_context 的 方法 将 一 个 给 定 的 名 字 上 下 文 与 原 上 下 文中 的 给 定名 字 绑 定 在 
一 起 。unbind 方 法 可 以 删除 名 字 ， 也 可 以 删除 上 下 文 。 

list 操 作用 于 浏览 名 字 服 务 的 一 个 上 下 文中 的 可 用 信息 。 它 从 目标 NameContext 返 回 一 个 绑 定 
的 列表 。 每 个 绑 定 包括 名 字 和 类 型 一 -类 型 说 明 它 是 一 个 对 象 还 是 一 个 上 下 文 。 有 了 时 修 ， 一 个 名 字 
上 下 文 可 能 包含 大 量 绑 定 ， 在 此 情形 下 ， 我 们 不 希望 将 它们 作为 一 次 调用 的 结果 返回 。 因 此 ，list 
方法 将 最 大 数量 的 绑 定 作为 一 次 list 调 用 的 结果 返回 ， 如 果 还 要 求 发 送 更 多 绑 定 的 话 ， 它 就 组 织 成 
批 返 回 结果 。 这 可 以 通过 将 一 个 迭代 子 作为 第 二 次 结果 返回 来 实现 。 客 户 使 用 和 迭代 子 以 一 次 一 部 
分 的 方式 读 取 剩 下 的 结果 。 

图 20-10 给 出 了 list 方 法 ， 但 是 为 了 简单 起 见 ， 忽 略 了 其 中 的 参数 类 型 定义 。BindingList 类 型 是 
一 个 绑 定 的 序列 ， 序 列 的 每 个 元 素 包 括 名 字 和 它 的 类 型 一 表示 它 是 一 个 上 下 文 或 是 一 个 远程 对 象 
引用 。Bindinglterator 类 型 提供 了 一 个 next_n 方 法 ， 用 于 存 取 它 的 下 一 个 绑 定 的 集合 。 它 的 第 一 个 
参数 说 明 需 要 多 少 绑 定 ， 第 二 个 参数 接收 绑 定 的 序列 。 客 户 调用 list 方 法 时 ， 以 将 要 得 到 的 最 大 绑 
定数 目 作 为 第 一 个 参数 ， 获 得 的 绑 定 序列 放 在 第 二 个 参数 ， 第 三 个 参数 是 一 个 迭代 子 ， 它 能 用 于 
获取 剩 下 的 绑 定 〈 如 果 还 有 的 话 ) 。 

CORBA 名 字 空 间 支 持 名 字 服 务 的 联盟 ， 采 用 的 机 制 是 每 个 服务 器 提供 名 字 图 的 一 个 子 集 。 例 
如 ， 在 图 20-9 中 ， 图 的 中 间 和 右边 的 初始 名 字 上 下 文 由 不 同 的 服务 器 管理 。 中 间 的 图 有 一 个 标记 为 
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“XX” 的 绑 定 ， 指 向 右边 图 中 的 上 下 文 。 通 过 该 上 下 文 ， 客 户 可 以 访问 在 远程 图 中 命名 的 对 象 。 
为 了 完成 该 联盟 ， 右 边 的 图 需要 添加 一 个 到 中 间 图 上 的 节点 的 绑 定 。 一 个 组 织 可 以 通过 提供 远程 
名 字 服 务 器 和 指向 它们 的 远程 引用 来 对 其 名 字 空 间 中 部 分 或 者 全 部 上 下 文 进行 访问 。 

CORBA 名 字 服 务 的 Java 实 现 非常 简单 ， 它 被 称 为 是 透明 的 是 因为 它 将 其 所 有 绑 定 存 储 在 易 失 
存储 器 中 。 任 何 认真 的 实现 至 少 都 会 把 它 的 名 字 图 的 拷贝 保留 在 文件 中 。 正 如 我 们 在 对 DNS 的 研 
究 中 看 到 的 ， 复 制 可 以 用 于 提供 更 好 的 可 用 性 。 


20.3.2 CORBA 事 件 服务 


CORBA 事 件 服 务 规约 定义 了 许多 接口 ， 用 于 支持 兴趣 对 象 ( 称 为 提供 者 ) 将 通知 传递 给 订阅 
者 ( 称 为 消费 者 )。 通 知 可 以 作为 一 般 同步 CORBA 远 程 方法 调用 的 参数 或 者 结果 传输 。 通 知 有 推 
和 拉 两 种 传播 方式 ,“ 推 ”是 由 提供 者 到 消费 者 ,“ 拉 ”是 由 消费 者 到 提供 者 。 在 “ 推 ” 方 式 中 ， 
消费 者 实现 PushConsumer 接 口 ， 该 接口 包括 一 个 push 方 法 ， 它 可 以 将 任意 CORBA 数 据 类 型 作为 参 
数 。 消 费 者 在 提供 者 上 注册 它们 的 远程 对 象 引 用 。 提 供 者 调用 push 方 法 ， 将 通知 作为 参数 传递 。 
在 “ 拉 ” 方 式 中 ,提供 者 实现 PullSupplier 接 口 ， 该 接口 包括 一 个 pull 方 法 ， 可 以 将 任意 的 CORBA 
数据 类 型 作为 其 返回 值 接收 。 提 供 者 在 消费 者 上 注册 它们 的 远程 对 象 引 用 。 消 费 者 调用 pull 方 法 ， 
该 方法 结果 是 接收 到 一 个 通知 。 

通知 本 身 可 作为 any 类 型 的 参数 或 结果 传输 ， 这 意味 着 对 象 交 换 通 知 时 必须 有 一 个 关于 通知 
内 容 的 协定 。 然 而 ， 应 用 程序 员 可 以 定义 他 们 自己 的 IDL 接 口 ， 从 而 可 以 带 有 任意 类 型 的 通知 。 

事件 通道 是 用 于 支持 多 个 提供 者 与 多 个 消费 者 以 异步 方式 进行 通信 的 CORBA 对 象 。 事 件 通 道 
作为 提供 者 与 消费 者 之 间 的 缓冲 区 。 它 也 能 向 多 个 消费 者 组 播 通 知 。 通 过 事件 通道 进行 的 通信 了 既 
可 以 用 推 方式 ， 也 可 以 用 拉 方 式 。 这 两 种 方式 也 可 以 混合 使 用 。 例 如 ， 提 供 者 可 以 将 通知 推 到 通 
道 ， 再 由 消费 者 从 通道 拉 出 通知 。 

当 分 布 式 应 用 需要 使 用 异步 通知 的 时 候 ， 它 创建 一 个 事件 通道 ， 该 通道 是 一 个 CORBA 对 象 ， 
它 的 远程 对 象 引 用 可 以 通过 名 字 服 务 或 者 以 RMI 的 方式 提供 给 应 用 组 件 。 应 用 程序 中 的 提供 者 从 
事件 通道 获得 代理 消费 者 并 传输 远程 对 象 引 用 给 代理 消费 者 ， 从 而 连接 提供 者 与 代理 消费 者 ， 这 
样 ， 提 供 者 就 可 以 被 订阅 了 。 应 用 程序 中 的 消费 者 从 通知 通道 获得 代理 提供 者 并 与 它们 相连 ， 这 
样 ， 消 费 者 就 可 以 订阅 通知 了 。 代 理 提供 者 和 代理 消费 者 既 可 以 用 于 推 模型 ， 也 可 以 用 于 拉 模 型 。 
当 提 供 者 采用 交互 的 推 模型 创建 一 个 通知 的 时 候 ， 它 调用 推 代理 消费 者 的 push 方 法 。 通 知 通 过 通 
道 传 输 并 传送 给 代理 提供 者 ， 然 后 传递 给 消费 者 ， 如 图 20-11 所 示 。 如 果 消 费 者 采用 了 交互 的 拉 模 
型 ， 那么 消费 者 将 调用 拉 代 理 消费 者 的 pull 方 法 。 
事件 通道 


提供 者 消费 者 






代理 消费 者 代理 提供 者 
图 20-11 CORBA 事 件 通道 
代理 消费 者 和 代理 提供 者 的 存在 使 得 构造 事件 通道 链 成 为 可 能 ， 在 事件 通道 链 中 ， 每 个 通道 
提供 被 后 续 通 道 消费 的 通知 。CORBA 模 型 中 的 事件 通道 与 图 5-11 中 定义 的 观察 者 很 相似 。 如 果 用 
程序 实现 事件 通道 的 话 ， 可 以 实现 5.4 节 中 讨论 的 观察 者 的 一 些 功 能 。 然 而 ， 通 知 不 带 有 任何 形式 
的 标识 符 ， 因 此 模式 识别 或 者 通知 过 滤 就 需要 基于 由 应 用 放 在 通知 里 的 类 型 信息 来 完成 。 
Farley[1998] 给 出 了 CORBA 事 件 服务 的 详细 解释 和 主要 接口 概述 。CORBA 事 件 服务 的 完整 规 
约 可 参见 [OMG 2004c]。 然 而 ， 规 约 没 有 指出 如 何 创建 一 个 事件 通道 和 如 何 请 求 需要 的 可 靠 性 。 





20.3.3 CORBA 通 知 服务 


CORBA 通 知 服务 [OMG 2004d] 保 留 了 CORBA 事 件 服务 的 所 有 特征 ， 包 括 事 件 通道 、 事 件 消费 
者 和 事件 提供 者 ， 同 时 扩展 了 该 服务 。 事 件 服务 不 支持 事件 过 滤 或 者 说 明 传 输 需求 。 不 使 用 过 渡 
器 的 话 ， 所 有 与 通道 相连 的 消费 者 都 不 得 不 接收 相同 的 通知 。 另 外 ， 如 果 不 具备 说 明 传 输 需 求 的 
能 力 ， 则 对 于 所 有 通过 通道 发 送 的 通知 ， 它 们 的 传输 保证 都 内 置 在 实现 中 。 

通知 服务 增加 了 以 下 一 些 新 的 机 制 : 

“通知 可 以 定义 为 数据 结构 。 这 增强 了 事件 服务 中 通知 具有 的 有 限 能 力 。 在 事件 服务 中 ， 通 知 

的 类 型 只 能 是 any 或 者 是 由 应 用 程序 员 指 定 的 一 种 类 型 。 

“事件 消费 者 可 以 使 用 过 滤器 准确 地 说 明 它 们 对 哪些 事件 感 兴趣 。 过 滤器 可 以 连接 到 通道 中 的 

代理 。 代 理 将 根据 在 过 滤器 中 对 每 种 通知 内 容 指 定 的 约束 来 把 通知 转发 给 事件 消费 者 。 

* 事件 提供 者 具有 一 种 发 现 消费 者 对 哪些 事件 感 兴趣 的 手段 ， 这 使 它们 可 以 只 创建 那些 满足 消 

费 者 要 求 的 事件 。 

。 事件 消费 者 可 以 发 现在 一 个 通道 中 由 提供 者 提供 的 事件 类 型 ， 这 使 它们 可 以 及 时 订阅 新 出 现 

的 事件 。 

* 可 以 配置 通道 、 代 理 或 者 某 个 事件 的 属性 。 这 些 属性 包括 事件 传输 的 可 靠 性 、 事 件 的 优先 级 、 

排序 需求 (例如 按 FIFO 或 者 按 优先 级 排序 ) 以 及 抛弃 存储 事件 的 策略 。 

* 可 以 增加 事件 类 型 仓库 。 它 将 提供 对 事件 结构 的 访问 ， 从 而 方便 地 定义 过 滤 约 束 。 

通知 服务 引入 了 结构 化 事件 类 型 ， 它 提供 一 种 数据 结构 可 以 映射 大 量 不 同类 型 的 通知 。 过 滤 
器 可 以 按 结 构 化 事件 类 型 的 组 成 成 分 进行 定义 。 一 个 结构 化 事件 包括 一 个 事件 头 和 一 个 事件 体 。 
下 面 的 例子 显示 了 事件 头 的 内 容 : 





求 






事件 名 需 


域 类 型 指定 义 域 (例如 , “finance”、“hotel” 或 者 “home” ) 。 事 件 类 型 对 域内 事件 的 类 型 进 
行 唯一 地 分 类 〈 例 如, “stock quote”、“breakfast time”、“burglar alarm”) 。 事 件 名 唯一 地 标识 正在 
传输 的 事件 的 特定 实例 。 事 件 头 的 剩 下 部 分 包括 一 系列 < 名 ， 值 > 对 ， 它 可 以 用 于 说 明 关 于 事件 传 
输 的 可 靠 性 和 其 他 需求 。 

下 面 的 例子 给 出 了 一 个 结构 化 事件 体 的 信息 : 

一 一 一 一 一 一 一 可 过 滤 部 分 一 一 一 一 一 一 一 一 一 
名 ， 值 名 ， 值 名 ， 值 剩 下 部 分 









事件 体 的 第 一 部 分 包括 一 系列 能 用 于 过 滤器 的 < 名 ， 值 > 对 。 不 同 的 行业 领域 希望 能 定义 相应 
标准 ， 用 于 规范 用 在 事件 体 的 可 过 滤 部 分 中 的 < 名 ， 值 > 对 ， 即 在 定义 过 滤器 的 时 候 使 用 相同 的 名 
字 和 值 。 或 许 ， 当 警报 响起 的 时 候 ， 该 事件 会 包括 警 铃 的 状态 、 前 门 是 否 是 开 的 和 猫 在 哪儿 。 事 
件 体 的 剩 下 部 分 用 于 传递 与 特定 事件 相关 的 数据 。 例 如 ， 当 警报 响起 的 时 候 ， 它 可 能 包括 一 个 屋 
内 的 数码 照片 。 

过 滤器 对 象 由 代理 使 用 ， 用 于 决定 是 否 转发 每 个 通知 。 一 个 过 滤器 被 设计 为 一 个 约束 的 集合 ， 
每 个 约 东 是 一 个 由 两 部 分 组 成 的 数据 结构 : 

* 一 张 数 据 结构 的 列表 ， 列 表 中 的 每 个 结构 由 域名 和 事件 类 型 组 成 ,表示 一 种 事件 类 型 ， 例 如 ， 

“home”, “burglar'alarm”。 该 列表 包括 约束 应 该 用 到 的 所 有 事件 类 型 。 

* 一 个 含有 一 个 布尔 表达 式 的 字符 串 ， 该 表达 式 涉 及 上 述 事件 类 型 的 值 。 例 如 : 


Oo 
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[> 
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(“domain type” == “home” && “event type”==“burglar alarm”) &&& 
(“bell” { = “ringing ” {! “door” == “open”) 
我 们 的 例子 使 用 了 非 形式 化 的 语法 。 通 知 服务 规范 包括 约束 语言 的 定义 ， 它 是 用 于 交易 服务 
的 约 东 语言 的 扩展 。 


20.3.4 CORBA 安 全 服务 


CORBA 安 全 服务 [Blakly 1999，Baker 1997，OMG 2002b] 包 括 如 下 内 容 : 

“主体 (用 户 和 服务 器 ) 的 认证 ， 为 主体 创建 凭证 ( 即 申 明 他 们 权利 的 证 书 ) ;支持 7.2.5 节 

中 描述 的 凭证 的 委托 。 

。 当 CORBA 对 象 接收 远程 方法 调用 的 时 候 可 以 应 用 访问 控制 。 访 问 权限 可 以 在 访问 控制 列表 

(ACL) 中 说 明 。 

。 客 户 与 对 象 之 间 通 信 的 安全 ， 保 护 销 息 的 完整 性 和 机 密 性 。 

“服务 器 审计 远程 方法 调用 。 

" 不 可 抵赖 的 机 制 。 当 一 个 对 象 代表 一 个 主体 执行 远程 调用 的 时 候 ， 服 务 器 创建 并 存储 一 些 凭 

证 ， 证 明 已 经 由 服务 器 代表 请 求 主 体 执 行 过 该 调用 。 

为 了 保证 这 种 安全 性 正确 地 应 用 到 远程 方法 调用 ， 安 全 服务 要 求 利 用 ORB 的 协作 代表 ORB。 为 
了 进行 一 次 安全 的 远程 方法 调用 ， 要 在 请 求 消息 中 发 送 客户 的 凭证 。 当 服务 器 接收 到 一 个 请 求 消息 的 
时 候 ， 它 就 要 验证 客户 的 凭证， 检查 它们 是 否 是 新 的 、 是 否 为 可 接受 的 权威 签署 的 。 如 果 这 些 任 证 是 
有 效 的 ， 它 们 就 可 以 判断 该 主体 是 否 有 采用 请 求 消息 中 的 方法 访问 远程 对 象 的 权利 。 做 出 这 一 决定 要 
查询 一 个 对 象 ， 该 对 象 包含 了 目标 对 象 上 的 每 个 方法 都 允许 由 哪些 主体 访问 的 信息 (可 能 是 以 ACL 的 
形式 )。 如 果 客 户 有 足够 的 权利 ， 就 执行 调用 ， 并 将 结果 返回 给 客户 ， 如 果 需 要 的 话 ， 也 可 以 同时 返 
回 服务 器 的 赁 证。 目标 对 象 还 可 以 将 调用 的 细节 记录 在 审计 日 志 里 或 者 存储 在 不 可 抵赖 的 凭证 中 。 

CORBA 人 允许 根据 需求 指定 不 同类 型 的 安全 策略 。 消 息 ~ 保 护 策略 申明 客户 或 者 服务 器 (或 者 
二 者 皆 有 ) 是 否 必须 被 认证 以 及 消息 是 否 必须 被 保护 以 免 泄 露 和 /修改 。 还 可 以 指定 审计 和 不 可 抵 
赖 的 政策 。 例 如 ， 一 个 策略 可 以 申明 它们 应 该 应 用 哪些 方法 和 参数 。 

访问 控制 需要 考虑 到 ， 许 多 应 用 有 大 量 的 用 户 和 更 大 量 的 对 象 ， 每 个 用 户 和 对 象 都 有 它 自己 的 
方法 集 。 根 据 用 户 的 角色 ， 为 他 们 提供 了 一 种 专门 的 称 为 特权 的 赁 证。 将 对 象 分 组 成 若干 个 域 ， 每 
个 域 有 个 访问 控制 政策 ， 规 定 具有 某 些 特权 的 用 户 对 该 域 中 对 象 的 访问 权限 。 考 虑 到 还 有 各 种 难 
以 预见 的 方法 ， 将 每 种 方法 都 归 类 为 四 种 通用 方法 (get、set、use 和 manage) 中 的 一 种 。get 方 法 
只 返回 对 象 状态 的 一 部 分 ，set 方 法 修改 对 象 的 状态 ，use 方 法 使 对 象 做 一 些 工作 ， 而 manage 方 法 完 
成 那些 一 般 情况 下 不 会 用 到 的 特殊 功能 。 因 为 CORBA 对 象 有 各 种 不 同 的 接口 ， 所 以 必须 根据 上 面 
的 通用 方法 为 每 个 新 接口 指定 其 访问 权限 。 这 项 工作 就 涉及 那些 正 致力 于 应 用 访问 控制 、 设 置 适当 
的 特权 属性 例如， 组 或 者 角色 ) 并 帮助 用 户 为 完成 他 们 的 任务 请 求 适当 特权 的 系统 设计 者 。 

在 最 简单 的 形式 中 ， 可 以 采用 对 应 用 透明 的 方式 使 用 安全 性 。 它 包括 将 要 求 的 保护 政策 应 用 
到 远程 方法 调用 和 审计 中 。 安 全 服务 允许 用 户 获 得 他 们 各 自 的 任 证 和 特权 ， 以 提供 像 口 令 之 类 的 
认证 数据 。 
20.4 小 结 


CORBA 的 主要 组 件 是 对 象 请 求 代理 (ORB)， 它 允许 以 一 种 语言 编写 的 客户 可 以 调用 以 另 一 

种 语言 编写 的 远程 对 象 ( 称 为 CORBA 对 象 ) 中 的 操作 。CORBA 还 解决 了 下 列 异 构 性 问题 
“COR8A 通 用 ORB 互 操作 协议 (GIOP) 包括 一 种 称 为 CDR 的 外 部 数据 表示 ， 它 使 客户 和 服务 
器 之 间 实现 与 硬件 无 关 的 通信 成 为 可 能 。 它 也 规定 了 远程 对 象 引 用 的 标准 格式 。 





CORBA 实 例 研 究 545 





*GIOP 还 包括 一 个 与 下 层 操作 系统 无 关 的 请 求 - 应 答 协 议 的 操作 规约 。 

* 因特网 ORB 互 操作 协议 (HOP) 在 TCP 协 议 之 上 实现 请 求 -应 答 协 议 。IIOP 远 程 对 象 引用 包 

括 服 务 器 的 域名 和 端口 号 。 

CORBA 对 象 实现 IDL 接 口中 的 操作 。 就 如 何 访问 一 个 CORBA 对 象 ， 客 户 所 需要 知道 的 就 是 那 
些 在 CORBA 对 象 的 接口 中 可 用 的 操作 。 客 户 程序 通过 代理 或 者 存根 访问 CORBA 对 象 ， 它 们 是 由 
IDL 接 口 根 据 客户 方 语言 自动 创建 的 。CORBA 对 象 的 服务 器 骨架 也 是 由 IDL 接 口 根据 客户 方 语言 自 
动 创建 的 。 对 象 适配器 是 CORBA 服 务 器 的 重要 组 件 ， 它 的 任务 包括 激活 与 解除 伺服 器 ， 生 成 远程 
对 象 引 用 ， 并且 将 请 求 信息 转发 给 合适 的 伺服 器 。 

CORBA 体 系 结构 允许 CORBA 对 象 在 需要 的 时 候 被 激活 ， 要 做 到 这 一 点 需 借 助 于 一 个 称 为 实 
现 仓库 的 组 件 ， 它 维护 一 个 实现 的 数据 库 ， 并 以 它们 的 对 象 适配器 名 作为 索引 。 当 一 个 客户 调用 
一 个 CORBA 对 象 时 ， 它 能 在 必要 的 时 候 被 激活 以 执行 该 调用 。 

接口 仓库 是 一 个 以 仓库 ID 为 索引 的 IDL 接 口 定 义 的 数据 库 ， 因 为 一 个 CORBA 对 象 的 IOR 包 含 
了 它 的 接口 的 仓库 ID， 所 以 为 了 支持 动态 方法 调用 ， 接 口 仓库 可 以 用 于 获得 与 CORBA 对 象 接口 中 
的 方法 有 关 的 信息 。 

CORBA 服 务 在 RMI 之 上 提供 分 布 式 应 用 需要 的 有 关 功 能 ， 从 而 为 应 用 提供 额外 的 服务 (如 名 
字 和 目录 服务 、 事 件 通知 、 事 务 或 者 安全 等 ) 。 


练习 


20.1 Task Bag 是 一 个 对 象 ， 存 储 (关键 字 ， 值 ) 对 。 关 键 字 是 一 个 字符 串 ， 值 是 一 个 字 池 序列 。 
它 的 接口 提供 如 下 的 远程 方法 : 
pairOut: 带 有 两 个 参数 ， 客 户 通过 这 两 个 参数 指定 将 被 存储 的 关键 字 和 值 。 
pairln: 它 的 第 一 个 参数 让 客户 指定 将 从 Task Bag 中 删除 的 (关键 字 ， 值 ) 对 中 的 关键 字 。 
其 中 的 值 则 通过 第 一 个 参数 提供 。 如 果 没 有 相 匹 配 的 (关键 字 ， 值 ) 对 ， 就 抛 出 一 个 异常 ， 
readPair: 除了 把 (关键 字 ， 值 ) 对 留 在 Task Bag 中 之 外 ， 其 他 与 pairIn 相 同 。 
采用 CORBA 1DL 定 义 Task Bag 的 接口 。 定 义 一 个 异常 ， 一 旦 任意 一 个 操作 无 法 执行 的 时 候 ， 
抛 出 该 异常 。 所 定义 的 异常 应 该 返回 一 个 用 来 标识 问题 号 的 整数 和 一 个 描述 问题 的 字符 串 。 
Task Bag 接 口 应 该 定义 -个 单独 的 属性 ， 给 出 包 中 任务 的 数目 。 (第 839 页 ) 
20.2 定义 方法 pairIin 和 readPair 的 另 一 种 基调 ， 它 的 返回 值 没有 相 匹 配 的 (关键 字 ， 值 》 对 可 用 。 
该 返回 值 应 该 定义 为 一 种 枚 举 类 型 ， 它 的 值 可 以 是 ok 和 wait。 讨 论 两 种 方法 的 优点 。 你 会 
哪个 方法 标识 像 关键 字 中 包含 了 非法 字符 这 样 的 错误 ? (第 840 页 ) 
20.3 Task Bag 接 口中 的 哪个 方法 可 以 被 定义 为 oneway 操 作 ? 给 出 一 个 关于 oneway 方 法 的 参数 和 异 
常 的 通用 规则 。 以 什么 方式 可 以 使 oneway 关 键 字 的 意义 与 IDL 的 其 他 部 分 不 同 ? 


(第 840 页 ) 

20.4 1DL 的 union 类 型 可 以 作为 -一 种 参数 ， 在 少数 几 种 类 型 中 只 传输 一 个 。 采 用 union 定 义 一 种 参 
数 类 型 ， 该 类 型 有 时 候 是 空 的 ， 有 时 候 有 值 类 型 。 (第 842 页 ) 
20.5 在 图 20-1 中 ， 类 型 All 定 义 为 一 个 固定 长 度 的 序列 。 把 它 重新 定义 为 一 个 相同 长 度 的 数组 。 给 
出 一 些 在 一 个 IDL 接 口中 应 该 选择 数组 还 是 序列 的 建议 。 (第 842 页 ) 


20.6 Task Bag 设 计 用 于 协作 的 客户 ， 其 中 一 部 分 客户 把 (描述 任务 的 ) (关键 字 ， 值 ) 对 添加 进 
去 ， 而 另 些 客户 则 把 它 删 除 掉 (并 执行 所 描述 的 任务 )。 当 一 个 客户 被 通知 说 没有 相 匹 配 
的 对 的 时 候 ， 它 就 不 能 继续 它 的 工作 ， 直 到 出 现 一 个 可 用 的 对 为 止 。 定 义 一 个 合适 的 回调 接 
口 以 便 用 在 这 样 的 情形 中 。 (第 835 页 ) 
20.7 描述 对 Task Bag 接 日 的 必要 修改 ， 使 得 可 以 使 用 回调 。 (第 835 页 ) 
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Task Bag 接 口中 方法 的 哪个 参数 是 按 值 传递 的 ? 哪个 参数 是 按 引 用 传递 的 ? (第 830 页 ) 
使 用 Java IDL 编 译 器 处 理 你 在 练习 20.1 中 定义 的 接口 。 在 所 生成 的 IDL 接 口 的 Java 等 价 类 中 ， 
检查 pairIn 和 readPair 方 法 的 基调 定义 。 再 看 看 为 方法 pairIn 和 readPair 的 值 参数 的 holder 方 法 
而 创建 的 定义 。 请 给 出 一 个 例子 ， 说 明 客 户 如何 调 用 pairIn 方 法 ， 解 释 它 将 怎样 通过 第 二 个 
参数 得 到 返回 值 。 (第 845 页 ) 
给 出 一 个 例子 ， 说 明 Java 客 户 将 如 何 访问 用 于 给 出 Task Bag 对 象 中 任务 个 数 的 属性 。 一 个 属 
性 与 一 个 对 象 的 实例 变量 不 同 有 哪些 不 同 ? (第 841 页 ) 
解释 为 什么 一 般 来 说 远程 对 象 的 接口 ， 特 别 是 CORBA 对 象 的 接口 不 提供 构造 函数 。 解 释 怎 
样 在 没有 构造 多 数 的 情况 下 创建 CORBA 对 象 。 (第 5 章 ， 第 833 页 ) 
根据 练习 20.1 用 IDL 重 新 定义 任务 包 接口 ， 以 使 它 可 以 使 用 struct 表 示 一 个 Pair， 该 结构 包括 
一 个 Key 和 一 个 Value。 注 意 ， 不 必 使 用 typedef 定 义 struct。 (第 842 页 ) 
从 伸缩 性 和 容错 的 角度 讨论 实现 仓库 的 功能 。 (第 838 页 ， 第 844 页 ) 
通过 怎样 扩展 ，CORBA 对 象 可 以 从 一 个 服务 器 迁移 到 另 一 个 服务 器 ? (第 838 页 ， 第 844 页 ) 
讨论 CORBA 名 字 服 务 中 的 两 部 分 名 字 或 NameComponent 的 优点 和 缺点 。 (第 848 页 ) 
给 出 一 个 算法 ， 描 述 在 CORBA 名 字 服 务 中 如 何 解析 一 个 多 部 分 名 字 。 一 个 客户 程序 需要 相 
对 于 初始 名 字 上 下 文 解析 一 个 带 有 “A”、“B” 和 “C” 组 成 部 分 的 多 部 分 名 字 。 在 名 字 服 
务 中 ， 怎 样 指定 resolve 操 作 的 参数 ? (第 848 页 ) 
一 个 虚拟 企业 包括 一 系列 相互 合作 的 公司 ， 大 家 共同 完成 某 个 项 目 。 每 个 公司 都 希望 只 给 
其 他 公司 提供 与 该 项 目 有 关 的 CORBA 对 象 的 访问 权限 。 描 述 一 种 合适 的 方法 ， 可 以 让 整个 
公司 联合 它们 的 CORBA 名 字 服 务 。 (第 850 页 ) 
在 共享 白板 应 用 程序 上 下 文中 ， 讨 论 如 何 使 用 CORBA 事 件 服务 中 直接 连接 的 提供 者 和 消费 
者 。 用 IDL 定 义 PushConsumer 和 PushSupplier 接 口 如 下 ; 
interface PushConsumer { 

void push ( in any data ) raises ( Disconnected ) ; 

void disconnect_push_consumer (); 
2 
interface PushSupplier { 


void disconnect push_supplier ( ); 


2} 
通过 调用 disconnect_push_supplier ( ) 或 者 disconnect_push_consumer ( )， 提供 者 和 消费 者 
都 可 以 分 别 决定 终止 事件 通信 。 (第 851 页 ) 


根据 你 在 20.18 中 的 解决 方案 ， 说 明 如 何 将 在 提供 者 和 消费 者 之 间 插 入 一 个 事件 通道 ， 事 件 
通道 具有 如 下 的 IDL 接 口 : 
interface EventChannel { 
ConsumerAdmin for_consumers { ); 
SupplierAdmin for_suppliers ( ); 
2}: 
其 中 ， 接 口 SupplierAdmin 和 ConsumerAdmin 可 以 使 提供 者 和 消费 者 能 得 到 以 如 下 IDEL 定 义 
的 代理 ， 
interface SupplierAdmin { 


ProxyPushConsumer obtain_push_consumer ( ); 
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2; 
interface ConsumerAdmin { 


ProxyPushSupplier obtain push_supplier (); 


了 
下 面 是 用 IDL 定 义 的 代理 消费 者 和 代理 提供 者 的 接口 : 
interface ProxyPushConsumer : PushConsumer { 
void connect_push_supplier ( in PushSupplier supplier ) 
raises ( AlreadyConnected ) ; 
了 
interface ProxyPushSupplier : PushSupplier { 
void connect push_consumer ( in PushConsumer consumer ) 
raises ( AlreadyConnected ) ， 
2 
使 用 事件 通道 有 什么 好 处 ? (第 851 页 ) [858 
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one-way function ( 单身 上 明 数 ) ,286 
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open Systems interconnection ( 玫 放 系统 下 连 ， 参 见 OSI 
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architecture ( 体系 结构 ) , 256~260 
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支持 ) , 245~256 
policy and mechanism ( 策略 和 机 汕 ) , 256 
processes and threads support ( 进程 和 线程 火 持 ) . 
228~245 
operational transformation ( 操作 变换 ) , 632 
optimistic concurrency control ( 乐观 并 发 控制 ) , 545~549 
backward validation ( 后 向 有 将 性 ) , 547 
comparison of forward and backward validation ( 前 向 
有 效 性 与 后 向 有 效 性 的 比较 ) , 549 
forward validation 〈 前 向 有 效 性 ) , 548 
in distributed transaction ( 在 分 布 式 事务 中 ) , 580 
starvation ( 饥 狐 ) . 549 
update phase ( 更 新 阶段 ) ,546 
validation ( 有效 性 ) , 546 
working phase (上 作 阶 段 ) ,546 
Orca, 753 
OSI Reference Model (OSI 参考 模型 ) ,78 
output parameters (输出 参数 ) , 180 
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packet switching ) 
packets ( 包 ， 参 见 network, packets ) 
page fault ( 页 失 配 ) , 233 
passive object ( 被 动 对 象 ) , 194 
passive replication (被 动 复 制 ， 参 见 primary-backup 
replication ) 
Pastry routing overlay ( Pastry 路 由 黎 盖 ) ，399, 409， 
410~418 
peer-to-peer ( 对 等 ) , 35~36, 398~430 
and copyright ownership ( 版 权 拥有 者 ) , 403 
middieware ( 中 间 件 ) , 399, 404~406 
routing overlay ( 路 由 镍 盖 ) ,406~410 
performance issues ( 件 能 问题 ) , 43 





过 | 





performance transparency ( 性 能 透明 性 ) , 24, 329 
persistent connection (一 致 性 连接 ) , 161, 251 
persistent object (持久 对 象 ), 194 
in CORBA persistent state service ( 在 CORBA 持 久 状 
念 服务 中 ) , 847 
persistent object store ( 持久 对 象 存储 ) 
comparison with file service ( 与 文件 服务 比较 ) , 325 
persistent Java ( 持久 Java ) , 194~195, 326 
personal digital assistant ( 个 人 数字 助理 , PDA ) ,658 
personal server (个 人 服务 器 ) , 665 
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挫 系 统 ) , 364 
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physically constrained channel ( 物理 受 限 通道 ) ，674， 
699~702 
pipelined RAM (管道 RAM ) ,777 
plaintext ( 明 义 ) ,286 
Plan (计划 ,规划 ) , 9, 375 
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play time, for multimedia data elements ( 娱乐 时 间 ， 适 
十 多 媒体 数据 元 素 ) , 74 
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POTS (plain old telephone system) ( 老式 电话 系统 ) , 75 
PPP (点 对 点 协议 ) ,78, 89, 91 
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preemptive scheduling ( 抢占 性 调度 ) , 242 
premature write ( 过 早 写 入 ) , 527 
presentation layer ( 表示 尼 ) , 78 
Pretty Good Privacy (PGP) (良好 隐私 (一 种 加 密 电 子 邮 
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primary copy ( 证 副本 ) , 348 
primary-backup replication (十 备份 复制 ) ,618~620 
principal ( 主体 ) .57 
privacy ( 私密 性 ) , 666, 695, 696, 703~704 
proxy (代理 ) ,704 
process ( 进程 ) , 228~245 
correct ( 正确 的 ) ,470 
creation ( 生成 ), 231~234 
creation cost ( 创建 开销 ) , 238 
maulti-threaded ( 多 线程 的 ) ,228 
threats to (威胁 ) ,5S8 
user-level ( 用 户 级 ) , 227 
Processor consistency ( 处 理 器 一 致 性 ) ,777 
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protocol (协议 ) ,75~81 
application layer ( 应 用 层 ) , 76. 78 
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data link layer ( 数据 链 路 层 ) ,78 
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FTP (文件 传输 协议 ) ,78, 80. 90. 110, 111 
HTTP ( 超 文本 传输 协议 ) ,78, 80, 90, 109 
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IP ( 央 特 网 协议 ) , 78. 79, 94~105 
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PPP (点 对 点 协议 ) ,78, 89, 91 
presentation layer ( 表示 层 ) , 78 
session layer ( 会 话 层 ) ,78 

SMTP ( 简单 邮件 传输 协议 ) , 78, 90 
stack ( 栈 ) ,77,246 

suite (组 ),77 

TCP (传输 控制 协议 ) , 78, 105~108 
TCPI/IP, 89 

transport ( 传输 ) , 76 
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pubic-key infrastructure ( 公 钥 基础 设施 ) , 301 
public-key certificate ( 公 钥 证 书 ) , 278, 280 
public-key cryptography ( 公 钥 密码 学 ) , 293~295 
publish-subscribe ( 出 版 - 订阅 ) , 201 
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quality of service ( 服务 质量 ) , 44 
admission control ( 任务 控制 ) .730 
management ( 管理 ) ,722, 728~738 
negotiation ( 协商 ) ,730, 731~736 
parameters ( 参数 ) ,731 

query ( 查询 ) 
distributed processing ( 分 布 式 处 理 ) ,689 
spatio-temporal ( 时 空 ) ,695 

quorum consensus { 法 定数 共识 ) , 642, 648~650 
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Radio Frequency IDentification ( 无 线 射 频 识别 ， 参 见 
RFID ) 
randomization ( 随机) , 509 
RC4 stream cipher algorithm (RC4 流 密码 算法 ) , 292 
reachability ( 可 达 性 ) , 452 
Real Time Transport Protocol (RTP) (实时 传输 协议 ) ， 
74 
real-time network ( 实时 网 络 ) , 118 
real-time scheduling ( 实时 调度 ) ,739 
receive-omission failures ( 接收 遗漏 故障 ) , 55 
recovery (恢复 ) , 526~528, 589~599 
cascading abort ( 连锁 放弃 ) , 527 
dirty read ( 脏 数据 读 取 ) , 526 
from abort ( 从 放弃 中 ) ,526 
intentions list ( 意图 列表 ) , 590, 595 
logging ( 日 志 ) ,590~593 
nested transactions ( 揪 食 事务 ) , 598~599 
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596~599 
premature write ( 过 早 写 人 )j ,527 
shadow versions ( 影子 版 本 ) , S94~595 
strict executions ( 池 格 执行 ) , 428 
transaction status ( 事务 状态 ) , S90, 595 
recovery file (恢复 文件 ) ,589~599 
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recovery from failure ( 故障 恢复 ) , 22 
recovery manager ( 恢复 管理 器 ) , 589 
redundancy (人 江 余 ) ,22 
redundant arrays of inexpensive disks (RAID) (廉价 磁盘 
宛 余 阵列 (RAID )) , 362 
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in Java remote method invocation (在 Java 远 程 方法 调 
用 中 ) ,215 
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in Java remote method invocation ( 在 Java 远 程 方法 调 
用 中 ) , 209 
remote method invocation ( 远程 方法 调用 ) , 8, 184 
communication module (通信 模块 ) , 190 
CORBA, 829~836 
dispatcher ( 调度 程序 ) , 191 
duplicate fijtering (重复 过 滤 ) , 187 
implementation (实现 ) , 190~195 
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null ( 空 ) ,247 
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transparency ( 透明度 ) , 189 
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instantiation ( 实例 化 ) , 186 
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compared with URI ( 与 URI 比 较 ) , 794 
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request-reply protocol ( 请求 - 应 答 内 议 ) ,156~164 
doOperation, 156 
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throughput (在 叶 名 ) ,234 
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service ( 服务 ) ,8 
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fault-toierant ( 容错 ) , 605, 615~622 
highly available ( 高 串 用 的 ) ,622~641 
Service discovery ( 服务 发 现 ， 参 见 discovery service ) 
service interface ( 服务 接 [1 ) , 180, 197, 796 
servlet ( serviet 程 学 ) , 240 
Servjet container ( Servjef 容器) , 796 
session Initiation Protocol ( 会 话 初 始 化 协议 ) , 725 
session key ( 会 活 密 钥 ) , 277 
session layer ( 会 证 层 ) ,78 
SETI @ home project (SETI @ home 项 目 ) , 401 
SHA secure hash algorithm (SHA 安全 散 列 算法 ) ,301, 303 
SHA-1 secure hash algorithm (SHA-1 安 全 散 列 算法 ) ， 
408, 410, 421, 427 
shadow versions ( 影子 版 本 ) ,594~595 
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CORBA IDL interface (CORBA IDL 接 口 ) ,830 
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795 
signature of method ( 方法 基调 ) , 182 
Simple Public-key Infrastructure (SPKI) ( 简单 公 钥 基础 
设施 ) , 302 
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dynamic ( 动态 ) , 193 
dynamic in CORBA (CORBA 中 的 动态 ) , 839 
in CORBA (CORBA 中 的 ) ,837 
in web services ( 在 web 服 务 中 ) , 798 
not needed with generic dispatcher (不 各 要 通用 调度 
器 ),215 
smart dust ( 参见 mote ) 
smart space ( 智能 从 问 ) ,662 
SMTP ( 简单 邮件 传输 协议 ) , 78, 90 
SOAP (SOAP 协 议 ) , 786, 789~794 
addressing and routing ( 寻 址 和 路 由 ) , 793 
and firewalls ( 和 防火 墙 ) ,794 
envelope (信封 ) , 790 
header ( 头 部 ) ,791 
Java implementation ( Java 实现 ) ,798 
message transport ( 消息 传输 ) ,792 
message ( 消息 ) ,790 
reliable communication ( 可 靠 通 信 ) ,793 
specification ( 规约 ) , 789 
use of HTTP ( HTTP 的 使 用 ) , 792 
with Java ( 带 Java 的 ) ,795~799 
socket ( 套 接 字 ) , 135 
address ( 地址 ) , 168 
bind 〈 绑 定 ) , 169 
close (关闭 ) , 169 
connect ( 连接 ) ,143 
datagram communication (数据 报 通 信 ) , 169 
pair ( 对 ) , 168 
stream communication (流通 信 ) , 170 
System call ( 系统 调用 ) , 168, 169, 171 
socket address ( 储 接 字 地 址 ) , 168 
sockets ( 套 接 字 ) , 135~136 
soft state ( 软 态 ) , 682 
software interrupt ( 软 中 断 ) , 237 
Solaris ( Solaris 系 统 ) 
lightweight process ( 轻 其 级 进程 ) , 243 
spatio-temporal query ( 时 空 查询 ) , 695 
Speakeasy, 681 
speaks for relation (in security) ( 关系 让 明 ( 在 安全 性 
中 )) ,284 
SPIN, 259 
SPKI ( 参见 Simple Public-key Infrastructure ) 
Spontaneous association ( 和 发 关联 ) , 665 
spontaneous interoperation (自发 互 操 作 ), 41~42， 
665~666 
Spontaneous networking ( 和 白 发 网 络 ) , 661 
discovery service ( 发 现 服务 ) ,386 
Spring naming service ( Spring 名 宁 服 务 ) ,375 
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Spritely NFS. 359 
Squirrel web cache (Squirrel web 缓 存 ) , 420~422 
SSL ( 参见 Transport Layer Security ) 
starvation ( 饥饿 ) .472, 549 
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